91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

了解光學(xué)字符識別技術(shù)識別票據(jù)原理

新機器視覺 ? 來源:新機器視覺 ? 作者:Ivan Ozhiganov ? 2020-11-27 10:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文翻譯自dzone 中Ivan Ozhiganov 所發(fā)文章Deep Dive Into OCR for Receipt Recognition 文中版權(quán)、圖像代碼等數(shù)據(jù)均歸作者所有。為了本土化,翻譯內(nèi)容略作修改。

光學(xué)字符識別技術(shù)(OCR)目前被廣泛利用在手寫識別、打印識別及文本圖像識別等相關(guān)領(lǐng)域。小到文檔識別、銀行卡身份證識別,大到廣告、海報。因為OCR技術(shù)的發(fā)明,極大簡化了我們處理數(shù)據(jù)的方式。

同時,機器學(xué)習(xí)(ML)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的快速發(fā)展也讓文本識別出現(xiàn)了巨大的飛躍!我們在本文的研究中也將使用卷積神經(jīng)網(wǎng)絡(luò)CNN技術(shù)來識別零售店的紙質(zhì)票據(jù)。為了方便演示,我們本次將僅采用俄語版的票據(jù)進行測試。

我們的目標(biāo)是項目開發(fā)一個客戶端來識別來獲取相關(guān)文檔,在有服務(wù)器端去識別解析數(shù)據(jù)。準(zhǔn)備好了嗎?讓我們一起去看看怎么做吧!

預(yù)處理

首先,我們需要接收圖像相關(guān)數(shù)據(jù),使其水平豎直方向垂直,接下來使用算法進行檢測是否為票據(jù),最終二值化方便識別。

旋轉(zhuǎn)圖像識別收據(jù)

我們有三種方案來識別票據(jù),下文對這三種方案做了測試。

1. 高閾值的自適應(yīng)二值化技術(shù)。2. 卷積神經(jīng)網(wǎng)絡(luò)(CNN)。3. Haar特征分類器。

自適應(yīng)二值化技術(shù)

首先,我們看到,圖中圖像上包含了完整的數(shù)據(jù),同時票據(jù)又與背景有些差距。為了能更好識別相關(guān)數(shù)據(jù),我們需要將圖片進行旋轉(zhuǎn)。使其水平沿豎直方向?qū)R。

我們使用Opencv中的自適應(yīng)閾值化函數(shù)adaptive_threshold和scikit-image框架來調(diào)整收據(jù)數(shù)據(jù)。利用這兩項函數(shù),我們可以在高梯度區(qū)域保留白色像素,低梯度區(qū)域保留黑色像素。這使得我們獲得了一個高反差的樣本圖片。這樣,通過裁剪,我們就能得到票據(jù)的相關(guān)信息了。

使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)

起初我們決定使用CNN來做相關(guān)位置檢測的接收點,就像我們之前做對象檢測項目一樣。我們使用判斷角度來拾取相關(guān)關(guān)鍵點。這種方案雖然好用,但是和高閾值對比檢測裁剪更差。

因為CNN只能找到文本的角度坐標(biāo),而文字的角度變化很大,這就意味著CNN模型不是很精準(zhǔn)。詳情請參考下面CNN測試的結(jié)果。

使用Haar特征分類器來識別收據(jù)

作為第三種選擇,我們嘗試使用Haar特征分類器來做分類篩選。然而經(jīng)過一周的分類訓(xùn)練和改變相關(guān)參數(shù),我們并沒有得到什么比較積極的結(jié)果,甚至發(fā)現(xiàn)CNN都比Haar表現(xiàn)好得多。

二值化

最終我們使用opencv中的adaptive_threshold方法進行二值化,經(jīng)過二值化處理,我們得到了一個不錯的圖片。

文本檢測

接下來我們來介紹幾個不同的文本檢測組件。

通過鏈接組件檢測文本

首先,我們使用Opencv中的find Contours函數(shù)找到鏈接的文本組。大多數(shù)鏈接的組件是字符,但是也有二值化留下來嘈雜的文本,這里我們通過設(shè)置閾值的大小來過濾相關(guān)文本。

然后,我們執(zhí)行合成算法來合成字符,如:Й和=。通過搜索最臨近的字符組合合成單詞。這種算法需要你找到每個相關(guān)字字母最臨近的字符,然后從若干字母中找到最佳選擇展示。

接下來文字形成文字行。我們通過判斷文字是否高度一致來判斷文本是否屬于同一行。

當(dāng)然,這個方案的缺點是不能識別有噪聲的文本。

使用網(wǎng)格對文本進行檢測

我們發(fā)現(xiàn)幾乎所有票據(jù)都是相同寬度的文本,所以我們設(shè)法在收據(jù)上畫出一個網(wǎng)格,并利用網(wǎng)格分割每個字符:

網(wǎng)格一下子精簡了票據(jù)識別的難度。神經(jīng)網(wǎng)絡(luò)可以精準(zhǔn)識別每個網(wǎng)格內(nèi)的字符。這樣就解決了文本嘈雜的情況。最終可以精確統(tǒng)計文本數(shù)量。

我們使用了以下算法來識別網(wǎng)格。

首先,我在二值化鏡像中使用這個連接組件算法。

然后我們發(fā)現(xiàn)圖中左下角有些是真,所喲我們通過二維周期函數(shù)來調(diào)整網(wǎng)格識別。

修正網(wǎng)格失真背后主要的思想是利用圖形峰值點找到非線性幾何失真,換句話說,我們必須找到這個函數(shù)的最大值的和。另外,我們還需要一個最佳失真值才行。

我們使用ScipyPython模塊中的RectBivariateSpline函數(shù)來參數(shù)化幾何失真。并用Scipy函數(shù)進行優(yōu)化。得到如下結(jié)果:

總而言之,這個方法緩慢且不穩(wěn)定,所以堅決不打算使用這個方案。

光學(xué)字符識別

我們通過組連接識別發(fā)現(xiàn)文本,并識別完整的單詞。

識別通過連接組發(fā)現(xiàn)的文本

對于文本識別,我們使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)接收相關(guān)字體進行培訓(xùn)。輸出部分,我們通過對比來提升概率。我們那個幾個最初的幾個選項多對比,發(fā)現(xiàn)有99%的準(zhǔn)確識別率后。又通過對比字典來提高準(zhǔn)確度,并消除相關(guān)類似的字符,如"З" 和 "Э"造成的錯誤。

然而,當(dāng)涉及嘈雜的文本時,該方法性能卻十分低下。

識別完整的單詞

當(dāng)文本太嘈雜的時候,需要找到完整的單詞才能進行單個字母的識別。我們使用下面兩個方法來解決這個問題:

LSTM網(wǎng)絡(luò)

圖像非均勻分割技術(shù)

LSTM網(wǎng)絡(luò)

您可以閱讀這些文章,以更加深入了解使用卷積神經(jīng)網(wǎng)絡(luò)識別序列中的文本 ,或我們可以使用神經(jīng)網(wǎng)絡(luò)建立與語言無關(guān)的OCR嗎?為此,我們使用了OCRopus庫來進行識別。

我們使用了等寬的字體來作為人工識別樣本進行訓(xùn)練。

訓(xùn)練結(jié)束后,我們由利用其他數(shù)據(jù)來測試我們的神經(jīng)網(wǎng)絡(luò),當(dāng)然,測試結(jié)果非常積極。這是我們得到的數(shù)據(jù):

訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)在簡單的例子上表現(xiàn)十分優(yōu)秀。同樣,我們也識別到了網(wǎng)格不適合的復(fù)雜情況。

我們抽取的相關(guān)的訓(xùn)練樣本,并讓他通過神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。

為了避免神經(jīng)網(wǎng)絡(luò)過度擬合,我們多次停止并修正訓(xùn)練結(jié)果,并不斷加入新數(shù)據(jù)作為訓(xùn)練樣本。最后我們得到以下結(jié)果:

新的網(wǎng)絡(luò)擅長識別復(fù)雜的詞匯,但是簡單的文字識別卻并不好。

我們覺得這個卷積神經(jīng)網(wǎng)絡(luò)可以細化識別單個字符來使文本識別更加優(yōu)秀。

圖像非均勻分割技術(shù)

因為收據(jù)字體是等寬的字體,所以我們決定按照字符分割字體。首先,我們需要知道每個字母的寬度。因此,字符的寬度尤為重要,我們需要估計每個字母的長度,利用函數(shù),我們得到下圖。選擇多種模式來選取特定的字母寬度。

我們得到一個單詞的近似寬度,通過除以字符中的字母數(shù),給出一個近似分類:

區(qū)分最佳的是:

這種分割方案的準(zhǔn)確度是非常高的:

當(dāng)然,也有識別不太好的情況:

分割后我們在使用CNN做識別處理。

從收據(jù)中提取含義

我們使用正則表達式來查找收據(jù)中購買情況。所有收據(jù)都有一個共通點:購買價格以XX.XX格式來撰寫。因此,可以通過提取購買的行來提取相關(guān)信息。個人納稅號碼是十位數(shù),也可以通過正則表達式輕松獲取。同樣,也可以通過正則表達式找到NAME / SURNAME等信息。

總結(jié)

不論你選擇什么方法,LSTM或者其他更加復(fù)雜的方案,都沒有錯誤,有些方法很難用,但是有些方法卻很簡單,因識別樣本而異。

我們將繼續(xù)優(yōu)化這個項目。目前來看,在沒有噪聲的情況下,系統(tǒng)性能更加優(yōu)秀。

原文鏈接:https://dzone.com/articles/using-ocr-for-receipt-recognition

責(zé)任編輯:xj

原文標(biāo)題:深入淺出了解OCR識別票據(jù)原理

文章出處:【微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    175

    瀏覽量

    17206
  • 識別
    +關(guān)注

    關(guān)注

    3

    文章

    175

    瀏覽量

    32601

原文標(biāo)題:深入淺出了解OCR識別票據(jù)原理

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    兆易創(chuàng)新助力指紋識別技術(shù)落地IoT新興場景

    從電容到屏下光學(xué),指紋識別技術(shù)在如今的PC、智能手機等消費電子產(chǎn)品中已被廣泛應(yīng)用,逐漸成為標(biāo)配。在這些成熟市場之外,隨著IoT技術(shù)的飛速發(fā)展,指紋
    的頭像 發(fā)表于 02-09 09:24 ?852次閱讀
    兆易創(chuàng)新助力指紋<b class='flag-5'>識別</b><b class='flag-5'>技術(shù)</b>落地IoT新興場景

    友思特案例 | 金屬行業(yè)視覺檢測案例四:挖掘機鋼板表面光學(xué)字符識別(OCR)檢測

    在挖掘機鋼板表面光學(xué)字符識別(OCR)檢測中,通過實施友思特深度學(xué)習(xí)視覺檢測解決方案,解決了挖掘機零部件生產(chǎn)所用鋼板上標(biāo)記識別的問題。這有助于防止材料分配錯誤,顯著提高了生產(chǎn)效率。
    的頭像 發(fā)表于 02-05 11:40 ?191次閱讀
    友思特案例 | 金屬行業(yè)視覺檢測案例四:挖掘機鋼板表面<b class='flag-5'>光學(xué)</b><b class='flag-5'>字符識別</b>(OCR)檢測

    瑞芯微(EASY EAI)RV1126B 語音識別

    1.語音識別簡介語音識別技術(shù),也被稱為自動語音識別(AutomaticSpeechRecognition,ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二
    的頭像 發(fā)表于 01-21 10:43 ?855次閱讀
    瑞芯微(EASY EAI)RV1126B 語音<b class='flag-5'>識別</b>

    ElfBoard技術(shù)貼|如何在【RK3588】ELF 2開發(fā)板上完成PPOC本地化部署

    PPOCR是由百度開發(fā)的一款開源深度學(xué)習(xí)OCR(光學(xué)字符識別)模型,專注于文本檢測、識別與理解任務(wù),具備多場景、多語言的字符識別能力。該模型基于大規(guī)模多樣化的文本圖像數(shù)據(jù)訓(xùn)練而成,能夠
    的頭像 發(fā)表于 11-14 10:54 ?7206次閱讀
    ElfBoard<b class='flag-5'>技術(shù)</b>貼|如何在【RK3588】ELF 2開發(fā)板上完成PPOC本地化部署

    藥品包裝壓印字符識別檢測難度大?PMS光度立體融合技術(shù)來破局!

    PMS光度立體圖像融合檢測系統(tǒng)破解了藥品壓印字符識別難題。該系統(tǒng)通過光源標(biāo)定、多角度圖像采集、缺陷增強和AI字符識別四個核心步驟,有效解決了藥品包裝上凹凸字符因高光過曝、暗區(qū)細節(jié)丟失和低對比度導(dǎo)致的
    的頭像 發(fā)表于 09-06 10:51 ?867次閱讀

    瑞芯微RK3576語音識別算法

    1.語音識別簡介語音識別技術(shù),也被稱為自動語音識別(AutomaticSpeechRecognition,ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二
    的頭像 發(fā)表于 08-15 15:13 ?2197次閱讀
    瑞芯微RK3576語音<b class='flag-5'>識別</b>算法

    如何利用OCR技術(shù)實現(xiàn)高效集裝箱箱號識別

    在現(xiàn)代物流和海關(guān)監(jiān)管領(lǐng)域,快速準(zhǔn)確地識別集裝箱箱號是提升通關(guān)效率、降低運營成本的關(guān)鍵。OCR(光學(xué)字符識別技術(shù)的應(yīng)用,為這一需求提供了智能化解決方案。通過結(jié)合高清成像設(shè)備和先進的算法
    的頭像 發(fā)表于 08-12 10:48 ?865次閱讀
    如何利用OCR<b class='flag-5'>技術(shù)</b>實現(xiàn)高效集裝箱箱號<b class='flag-5'>識別</b>?

    【嘉楠堪智K230開發(fā)板試用體驗】01 Studio K230開發(fā)板Test2——手掌,手勢檢測,字符檢測

    效果這里采取官方例子,我的實驗視頻統(tǒng)一放在了最后(其實是不知道能不能中間放視頻) 下面是字符識別的部分 可以通過k230識別圖片中的字符識別,實驗效果如下 總之這幾部分的效果都是很不錯的,推薦!?。?最后感謝01studio
    發(fā)表于 07-10 09:45

    即插即用、缺陷同檢,維視智造推出讀碼/字符檢測視覺系統(tǒng)新品

    在當(dāng)前的工業(yè)生產(chǎn)領(lǐng)域,產(chǎn)品讀碼和字符識別是實現(xiàn)生產(chǎn)自動化、提升效率,保障質(zhì)量、滿足嚴格的可追溯性要求的必要生產(chǎn)動作。但因產(chǎn)品特性、生產(chǎn)環(huán)境、生產(chǎn)流程、生產(chǎn)要求的千差萬別,傳統(tǒng)的產(chǎn)品讀碼和字符識別常常
    的頭像 發(fā)表于 06-19 08:51 ?855次閱讀
    即插即用、缺陷同檢,維視智造推出讀碼/<b class='flag-5'>字符</b>檢測視覺系統(tǒng)新品

    OCR技術(shù)如何實現(xiàn)鐵路集裝箱號的自動識別

    在鐵路物流運輸中,集裝箱號的快速準(zhǔn)確識別是提升效率的關(guān)鍵環(huán)節(jié)。通過先進的OCR(光學(xué)字符識別技術(shù),結(jié)合計算機視覺與深度學(xué)習(xí)方法,可以實現(xiàn)鐵路集裝箱號的高效、可靠
    的頭像 發(fā)表于 06-13 10:32 ?648次閱讀

    基于算力魔方與PP-OCRv5的OpenVINO智能文檔識別方案

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 一,引言 隨著人工智能技術(shù)的快速發(fā)展,光學(xué)字符識別(OCR)技術(shù)已從傳統(tǒng)的模式識別方法演進到基于深
    的頭像 發(fā)表于 06-12 21:19 ?1641次閱讀
    基于算力魔方與PP-OCRv5的OpenVINO智能文檔<b class='flag-5'>識別</b>方案

    OCR技術(shù)vs傳統(tǒng)識別:哪種更適合火車集裝箱識別?

    在鐵路物流領(lǐng)域,集裝箱箱號識別是提升運輸效率的關(guān)鍵環(huán)節(jié)。隨著計算機視覺技術(shù)的發(fā)展,OCR識別與傳統(tǒng)識別技術(shù)在火車集裝箱場景中的應(yīng)用差異日益明
    的頭像 發(fā)表于 06-11 10:54 ?628次閱讀

    大模型預(yù)標(biāo)注和自動化標(biāo)注在OCR標(biāo)注場景的應(yīng)用

    OCR,即光學(xué)字符識別,簡單來說就是利用光學(xué)設(shè)備去捕獲圖像并識別文字,最終將圖片中的文字轉(zhuǎn)換為可編輯和可搜索的文本。在數(shù)字化時代,OCR(光學(xué)
    的頭像 發(fā)表于 04-15 15:18 ?950次閱讀

    手持終端集裝箱識別系統(tǒng)的圖像識別技術(shù)

    在港口、碼頭、物流園區(qū)等場景中,集裝箱的高效管理一直是行業(yè)智能化升級的核心需求?;谙冗M的OCR(光學(xué)字符識別)與AI技術(shù),手持終端集裝箱識別系統(tǒng)實現(xiàn)了從大型設(shè)備到移動終端的全場景箱號
    的頭像 發(fā)表于 04-03 10:49 ?735次閱讀

    阿普奇視覺控制器AK7在OCR識別場景中的應(yīng)用

    在實際工業(yè)生產(chǎn)中,OCR(光學(xué)字符識別技術(shù)的應(yīng)用逐漸普及,在食品包裝、新能源、汽車制造、3C電子等領(lǐng)域幫助企業(yè)完成產(chǎn)品編碼、生產(chǎn)日期、批號等字符信息自動
    的頭像 發(fā)表于 03-20 11:44 ?786次閱讀
    阿普奇視覺控制器AK7在OCR<b class='flag-5'>識別</b>場景中的應(yīng)用