91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于OCR 你想了解的可能都在這兒了

新機(jī)器視覺 ? 來源:AI公園 ? 作者:Gidi Shperber ? 2021-04-26 13:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀

OCR中的研究,工具和挑戰(zhàn),都在這兒了。

介紹

我喜歡OCR(光學(xué)字符識別)。對我來說,它代表了數(shù)據(jù)科學(xué),尤其是計算機(jī)視覺的真正挑戰(zhàn)。這是一個現(xiàn)實世界的問題,它有很多方法,包括計算機(jī)視覺,pipeline調(diào)整,甚至一些自然語言處理。它也需要大量的工程設(shè)計。它概括了數(shù)據(jù)科學(xué)中的許多問題:破壞了強(qiáng)大的基準(zhǔn),過分強(qiáng)調(diào)方法的復(fù)雜性和“新穎性”,而不是關(guān)注現(xiàn)實世界的進(jìn)步。

兩年前,我發(fā)表了一篇關(guān)于OCR的文章。像我的大多數(shù)文章一樣,這篇文章意在回顧這個領(lǐng)域的研究和實踐,闡明你能做什么,不能做什么,如何做,為什么做,并提供實用的例子。

它的本質(zhì)是,當(dāng)時的深度學(xué)習(xí)OCR是好的,但還不夠好?,F(xiàn)在,OCR要好得多。但還是不太好。

但是,考慮到深度學(xué)習(xí)領(lǐng)域的活力,在我看來,它需要一個更新,甚至是完全重寫。就是這樣。如果你來到這里,你可能對OCR感興趣。你要么是一名學(xué)生,要么是一名想要研究這個領(lǐng)域的研究員,要么你有商業(yè)興趣。不管怎樣,這篇文章應(yīng)該能讓你跟上進(jìn)度。

開始

首先,讓我們理清我們的概念:

OCR- 光學(xué)字符識別。這是一個常見的術(shù)語,主要指文檔上的結(jié)構(gòu)化文本。

STR- 場景文本識別。大多指的是在野外場景中更具有挑戰(zhàn)性的文本。為了簡單起見,我們將它們都稱為OCR。

如前所述,OCR描述了深度學(xué)習(xí)和一般數(shù)據(jù)科學(xué)領(lǐng)域的許多成就,但也面臨著挑戰(zhàn)。一方面,這是我們之前的巨大進(jìn)步。同樣是令人印象深刻的同比進(jìn)步。然而,OCR仍然沒有解決。

還有一些非常惱人的失敗案例,原因各不相同,大部分都是源于標(biāo)準(zhǔn)深度學(xué)習(xí)的根本原因 —— 缺乏泛化、易受噪聲影響等。因此,即使模型可以處理許多情況(不同的字體、方向、角度、曲線、背景),也有一些偏差是不能工作的(只要它們不是手動引入到訓(xùn)練集中):不流行的字體、符號、背景等等。

任意形狀的文本 — 來自ICDAR 2019數(shù)據(jù)集

此外,還出現(xiàn)了一個偉大而有用的庫Easy OCR:https://github.com/JaidedAI/EasyOCR,它的目標(biāo)是使最先進(jìn)的OCR方法在開源中易于訪問和使用。作為額外的好處,這個庫還解決了OCR中的多語言問題(目前包括大約80種語言和更多的語言)和模型的速度(仍處于早期階段)。這個庫并不完美,但它確實是一個很好的解決方案。稍后再詳細(xì)介紹。

因此,廢話不多說,讓我們看一下OCR當(dāng)前的狀態(tài)。

值得注意的研究

一如既往,數(shù)據(jù)科學(xué)任務(wù)的邊界被研究擴(kuò)展,而實踐在創(chuàng)新方面落后,但在穩(wěn)健性方面領(lǐng)先。

在我之前的文章中,我回顧了3種方:

當(dāng)時流行的經(jīng)典計算機(jī)視覺方法

一般深度學(xué)習(xí)方法,檢測和識別,效率高,易于使用。

特定的深度學(xué)習(xí)方法,如CRNN和STN能取得良好的結(jié)果,但“太新,不能信任”。

在這篇文章中,我們可以說,特定的深度學(xué)習(xí)方法已經(jīng)成熟,并且在研究和實踐中都占據(jù)主導(dǎo)地位。

任務(wù)

在上一篇文章中,我們使用了一些例子,它們在當(dāng)前狀態(tài)下看起來可能很簡單:車牌識別,驗證碼識別等等。今天的模型更有效,我們可以討論更困難的任務(wù),例如:

解析截圖

解析商業(yè)手冊

數(shù)字媒體解析

街道文本檢測

Pipeline

在OCR上應(yīng)用標(biāo)準(zhǔn)的目標(biāo)檢測和分割方法后,方法開始變得更加具體,并針對文本屬性:

文本是同構(gòu)的,文本的每個子部分仍然是文本

文本可能在不同的層次上被檢測到,字符,單詞,句子,段落等。

因此,現(xiàn)代的OCR方法“隔離”特定的文本特征,并使用不同模型的“pipeline”來處理它們。

在這里,我們將專注于一個特定的設(shè)置,實際上是一個模型pipeline,除了視覺模型(特征提取器),還有一些更有用的組件:

Pipeline的圖

Pipeline的第一個部分是文本檢測。顯然,如果要使用不同的部分的文本,在識別實際字符之前檢測文本的位置可能是個好主意。這部分是與其他部分分開訓(xùn)練的。

Pipeline的第二個部分是可選的:轉(zhuǎn)換層。它的目標(biāo)是處理各種扭曲的文本,并將其轉(zhuǎn)換為更“常規(guī)”的格式(參見pipeline圖)。

第三部分是視覺特征提取器,它可以是你最喜歡的深度模型。

Pipeline的第四個部分是RNN,它的目的是學(xué)習(xí)重復(fù)的文本序列。

第五部分也就是最后一部分是CTC的損失。最近的文章用注意機(jī)制取代了它。

該pipeline除了檢測部分外,大多是端到端訓(xùn)練,以減少復(fù)雜性。

Pipeline的問題

Pipeline中有不同的組件是很好的,但是它有一些缺點。每個組件都有它自己的偏差和超參數(shù)集,這導(dǎo)致了另一個層次的復(fù)雜性。

數(shù)據(jù)集

眾所周知,所有好的數(shù)據(jù)科學(xué)工作的基礎(chǔ)都是數(shù)據(jù)集,而在OCR中,數(shù)據(jù)集是至關(guān)重要的:選擇的訓(xùn)練和測試數(shù)據(jù)集對結(jié)果有重要的影響。多年來,OCR任務(wù)在十幾種不同的數(shù)據(jù)集中進(jìn)行了磨礪。然而,它們中的大多數(shù)并沒有包含超過幾千張帶標(biāo)注的圖像,這對于擴(kuò)展來說似乎不夠。另一方面,OCR任務(wù)是最容易使用合成數(shù)據(jù)的任務(wù)之一。

讓我們看看有哪些重要的數(shù)據(jù)集可用:

“真實” 數(shù)據(jù)集

一些數(shù)據(jù)集利用了谷歌街景。這些數(shù)據(jù)集可以被劃分為規(guī)則或不規(guī)則(扭曲的、有角度的、圓角的)文本。

SVHN— 街景編號,我們在上一篇文章的例子中使用過。

SVT— 街景文字,文字圖像來自谷歌街景。

ICDAR(2003, 2013,2015, 2019) — 為ICDAR和競賽創(chuàng)建的一些數(shù)據(jù)集,具有不同的重點。例如,2019年的數(shù)據(jù)集被稱為“任意形狀的文本”,這意味著,無論它變得多么不規(guī)則都有可能。

生成數(shù)據(jù)集

目前流行的合成數(shù)據(jù)集有兩種,它們在大多數(shù)OCR工作中被使用。不一致的使用使得作品之間的比較具有挑戰(zhàn)性。

MJ Synth— 包括相對簡單的單詞組成。數(shù)據(jù)集本身包括~9M的圖像。

Synthtext— 具有更復(fù)雜的機(jī)制,它在第一階段應(yīng)用分割和圖像深度估計,然后在推斷的表面上“種出”文本。數(shù)據(jù)集本身包含約5.5M的圖像。

DALL-E — 這有點不確定,但是文本圖像生成(可能還有OCR)的未來似乎更加趨向于無監(jiān)督。

這些合成數(shù)據(jù)集還擅長生成不同的語言,甚至是比較難的語言,比如漢語、希伯來語和阿拉伯語。

度量

在討論具體的研究論文之前,我們需要確定成功的標(biāo)準(zhǔn)。顯然有不止一種選擇。

首先,讓我們考慮一下文本檢測的方式,它可以使用標(biāo)準(zhǔn)的目標(biāo)檢測指標(biāo),如平均平均精度,甚至標(biāo)準(zhǔn)精度和召回。

現(xiàn)在到了有趣的部分:識別。有兩個主要的指標(biāo):單詞級別的準(zhǔn)確性和字符級別的準(zhǔn)確性。特定的任務(wù)可能需要更高的準(zhǔn)確性(例如文本塊的準(zhǔn)確性)。目前最先進(jìn)的方法在具有挑戰(zhàn)性的數(shù)據(jù)集上顯示了80%的準(zhǔn)確性(我們將在后面討論)。

字符級別本身用“歸一化編輯距離”來封裝,該距離度量單詞之間相似字符的比例。

研究論文

在這篇文章中,我們關(guān)注的是最佳實踐,而不是構(gòu)想。我建議你去看看篇綜述:https://arxiv.org/pdf/1811.04256.pdf,你會發(fā)現(xiàn)有很多方法讓你很難做出選擇。

場景文本識別的問題是什么?

這個工作名字很不一樣,文章https://arxiv.org/abs/1904.01906本身也很出色。這是一種前瞻性的調(diào)研,內(nèi)容有:

定義統(tǒng)一的訓(xùn)練和測試集(經(jīng)過一些優(yōu)化后)。

在數(shù)據(jù)集上測試基準(zhǔn)的最佳實踐。

對方法進(jìn)行邏輯結(jié)構(gòu)的整理,并“幫助”讀者理解使用什么方法。

9c161d40-a648-11eb-aece-12bb97331649.png

固定測試集上OCR pipeline的分類

所以本文的重點是:

對于OCR來說,訓(xùn)練數(shù)據(jù)集(可能被認(rèn)為是“最好的”)是兩個合成數(shù)據(jù)集:MJ和Synthtext。此外,重要的特征不是數(shù)量而是多樣性(減少數(shù)據(jù)量不會對模型的性能造成太大的影響,但刪除一個數(shù)據(jù)集卻會造成太大的影響)

測試數(shù)據(jù)集約為5個真實世界數(shù)據(jù)集。

論文論證了隨著每次pipeline的更新,結(jié)果逐漸改善。最顯著的改進(jìn)是從VGG到ResNet特征提取器的改動,精度從60%提高到80%。RNN和歸一化的補(bǔ)充將模型推高到了83%。CTC到注意力更新增加了1%的準(zhǔn)確性,但推理時間增加了三倍。

9c4e1a06-a648-11eb-aece-12bb97331649.png

文本檢測

在本文的大部分內(nèi)容中,我們將討論文本識別,但你可能還記得,pipeline的第一部分是文本檢測。實現(xiàn)當(dāng)前這一代的文本檢測模型有點棘手。以前,文本檢測作為目標(biāo)檢測的一個分支。然而,目標(biāo)檢測有一些設(shè)置是通用的目標(biāo),如汽車,人臉等。當(dāng)引入文本檢測時,需要進(jìn)行一些重要的更新。

其實質(zhì)是文本既具有同質(zhì)性,又具有局部性。這意味著,一方面,文本的每個部分都是文本本身,另一方面,文本的子集應(yīng)該統(tǒng)一到更大的類別上(如把字符統(tǒng)一為單詞)。因此,基于分割的方法比基于目標(biāo)檢測的方法更適合于文本檢測。

CRAFT

我們最喜歡的目標(biāo)檢測方法被稱為CRAFT — Character Region Awareness for Text Detection,它也被集成到easy OCR中。該方法應(yīng)用了一個簡單的分割網(wǎng)絡(luò),很好地使用了真實圖像和合成圖像,以及字符級和單詞級的標(biāo)注。

9c633aa8-a648-11eb-aece-12bb97331649.png

CRAFT模型概要

該模型在P和R上的h均值約為80%,在大多數(shù)數(shù)據(jù)集上也有很好的分詞效果,使模型的識別更加容易。

實際的例子

我們已經(jīng)到了實際應(yīng)用的階段。你應(yīng)該用什么?所以我們已經(jīng)在前面回答了這個問題(Easy OCR…),但是讓我們查看一些流行的解決方案。

開源

需要注意的一件非常重要的事情是,盡管OCR受到學(xué)術(shù)界缺乏健壯性的影響,但它卻享受著開源軟件的繁榮,它允許研究人員和實踐者在彼此的工作基礎(chǔ)上進(jìn)行構(gòu)建。以前的開源工具(如Tesseract,見下文)在數(shù)據(jù)收集和從頭開始的開發(fā)中遇到了困難。最近的庫,比如Easy OCR,通過一組構(gòu)建塊,從數(shù)據(jù)生成到所有pipeline模型上可以有更多的調(diào)整。

工具

Tesseract

在很長一段時間里,Tesseract OCR是領(lǐng)先的開源OCR工具(不考慮偶爾與論文相關(guān)的庫)。然而,這個工具是作為一個經(jīng)典的計算機(jī)視覺工具構(gòu)建的,并沒有很好地過渡到深度學(xué)習(xí)。

APIs

OCR是大型云提供商谷歌、亞馬遜和微軟的一些早期計算機(jī)視覺API。這些API并不共享它們的能力基準(zhǔn),所以測試成為了我們的責(zé)任。

Easy OCR

在某種程度上,Easy OCR包是這篇文章的驅(qū)動。從不同的構(gòu)建塊構(gòu)建一個開源的、最先進(jìn)的工具的能力是很厲害的。

下面是它的工作原理

使用MJ-Synth包生成數(shù)據(jù)。

用于檢測的CRAFT模型(見上圖)。

根據(jù)“what is wrong”的論文(見上文)訓(xùn)練一個調(diào)整后的pipeline,用于文本識別。

其他優(yōu)化。

多語言:如上所述,OCR包含一些NLP元素。因此,處理不同的語言有不同之處,但我們也可以從工藝模型(可能還有其他檢測模型)的多語言中受益。識別模型是特定于語言的,但訓(xùn)練過程是相同的。

最后一個問題是性能,這使得它在這個階段成為“go to OCR tech” 。你可以從下面看到,它們甚至比付費API結(jié)果還要好。

在Easy OCR中需要改進(jìn)的一點是調(diào)整能力:雖然語言選擇很容易,但是可以根據(jù)不同的目的改變模型和再訓(xùn)練。在下一篇文章中,我們將展示如何做到這一點。

9c90c9be-a648-11eb-aece-12bb97331649.jpg

運行時間怎么樣?

OCR的推斷可能會很慢,這并不奇怪。檢測模型是一個標(biāo)準(zhǔn)的深度學(xué)習(xí)模型,在GPU上運行約1秒(每張圖像),而識別模型需要一遍又一遍的運行檢測。在GPU上,一個包含許多目標(biāo)的圖像可能需要幾十秒,更不用說CPU了。如果你想在你的手機(jī)或PC應(yīng)用程序上運行OCR,使用較弱的硬件呢?

Easy OCR可以讓你學(xué)到:首先,這個庫引入了一些技巧,使推理更快(例如更緊湊的圖像切片形狀用于目標(biāo)識別)。此外,由于是模塊化的,你可以(目前需要一些代碼調(diào)整)集成你自己的模型,這樣就可以更小更快。

代碼樣例

因此,在討論了不同的包和模型之后,是時候見證實際的結(jié)果了。這個notebook:https://colab.research.google.com/drive/1kNwHLmAtvwQjesqNZ9BenzRzXT9_S80W嘗試了Easy OCR vs Google OCR vs Tesseract的對比,我選擇了2張圖像:

9c9add64-a648-11eb-aece-12bb97331649.png

一種是常見的OCR case —— 來自文檔的標(biāo)準(zhǔn)結(jié)構(gòu)化文本,另一種是具有挑戰(zhàn)性的書籍封面集合:多種字體、背景、朝向(不是很多)等等。

我們將嘗試三種不同的方法:Easy OCR、Google OCR API(在大型技術(shù)云API中被認(rèn)為是最好的)和古老的Tesseract。

PDF

9d47df96-a648-11eb-aece-12bb97331649.png

在這類文本上,Tesseract和Google OCR的性能是完美的。這是有意義的,因為Google OCR可能在某種程度上基于Tesseract。

注意Google OCR對于這種文本有一個特殊的模式 — DOCUMENT_TEXT_DETECTION,應(yīng)該用這個,而不是標(biāo)準(zhǔn)的TEXT_DETECTION。

Easy OCR的準(zhǔn)確率約為95%。

有挑戰(zhàn)的圖像

左:Google OCR,右:Easy OCR

總體而言,Easy OCR效果最好。具體來說,檢測部分捕獲了大約80%的目標(biāo),包括非常具有挑戰(zhàn)性的對角線目標(biāo)。

Google OCR更糟,大約60%。

在識別方面,他們在字符級別上的識別率約為70%,這使得他們在單詞或書的級別上識別率不高??雌饋恚珿oogle OCR在單本書上沒有100%正確的,而Easy OCR有一些可以。

我注意到的另外一件事是,Easy OCR在字符級別上表現(xiàn)更好,Google OCR在單詞級別上更好 —— 這讓我認(rèn)為它可能在后臺使用了字典。

英文原文:https://towardsdatascience.com/ocr-101-all-you-need-to-know-e6a5c5d5875b

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Str
    Str
    +關(guān)注

    關(guān)注

    0

    文章

    21

    瀏覽量

    35313
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    175

    瀏覽量

    17203
  • 提取器
    +關(guān)注

    關(guān)注

    0

    文章

    14

    瀏覽量

    8243
  • rnn
    rnn
    +關(guān)注

    關(guān)注

    0

    文章

    92

    瀏覽量

    7350

原文標(biāo)題:OCR:你想要了解的都在這兒了

文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    工業(yè)級OCR手持終端怎么選?國產(chǎn)OCR智能識別pda實測

    工業(yè)環(huán)境專用OCR智能PDA怎么選?鳥鳥科技N70Socr具備IP67防塵防水+1.5米抗跌落,5000mAh可拆卸電池支持24小時輪班作業(yè)。專業(yè)OCR掃描頭+斑馬/霍尼二維碼引擎雙模組,285g人體工學(xué)設(shè)計,讓高強(qiáng)度數(shù)據(jù)采集更輕松。點擊查看詳細(xì)防護(hù)測試與續(xù)航實測數(shù)據(jù)!
    的頭像 發(fā)表于 02-07 17:45 ?222次閱讀
    工業(yè)級<b class='flag-5'>OCR</b>手持終端怎么選?國產(chǎn)<b class='flag-5'>OCR</b>智能識別pda實測

    沐曦曦云C500/C550 GPU產(chǎn)品適配智譜GLM-OCR模型

    今天,智譜AI正式發(fā)布并開源GLM-OCR,以 “小尺寸、高精度” 實現(xiàn)文檔解析能力新標(biāo)桿。沐曦股份曦云C500/C550 GPU充分發(fā)揮高生態(tài)兼容性、軟硬協(xié)同能力優(yōu)勢,高效完成與智譜GLM-OCR
    的頭像 發(fā)表于 02-03 11:36 ?664次閱讀
    沐曦曦云C500/C550 GPU產(chǎn)品適配智譜GLM-<b class='flag-5'>OCR</b>模型

    DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 與 x86 平臺交付可規(guī)?;母咝阅?OCR 能力

    一、行業(yè)背景與核心挑戰(zhàn):OCR 規(guī)模化應(yīng)用的關(guān)鍵瓶頸 **隨著文檔識別技術(shù)的不斷成熟,OCR 技術(shù)已從實驗性階段逐步走向?qū)嶋H業(yè)務(wù)場景,在政務(wù)、金融、制造、物流等多個行業(yè)中得到廣泛應(yīng)用。然而,在規(guī)?;?/div>
    的頭像 發(fā)表于 01-22 21:02 ?160次閱讀
    DeepX <b class='flag-5'>OCR</b>:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 與 x86 平臺交付可規(guī)?;母咝阅?<b class='flag-5'>OCR</b> 能力

    最會玩AI的年輕人,都在這兒

    行業(yè)資訊
    腦極體
    發(fā)布于 :2025年12月11日 11:40:42

    瑞蘇盈科:FPGA領(lǐng)域的創(chuàng)新者,以技術(shù)實力賦能FPGA設(shè)計服務(wù)和解決方案

    我們今天,小編向大家詳細(xì)的介紹一下——瑞蘇盈科,一個FPGA界的寶藏選手,您想了解的全在這
    的頭像 發(fā)表于 11-21 08:32 ?444次閱讀
    瑞蘇盈科:FPGA領(lǐng)域的創(chuàng)新者,以技術(shù)實力賦能FPGA設(shè)計服務(wù)和解決方案

    新手小白必看!關(guān)于A100云主機(jī)租用,你想知道的一切都在這!

    最通俗易懂的語言,為你準(zhǔn)備一份超詳細(xì)的A100云主機(jī)租用新手指南,幫你掃清所有障礙,輕松開啟AI之旅。Q1:A100云主機(jī)到底是什么?我租了能得到什么?把它想象成一
    的頭像 發(fā)表于 10-31 19:24 ?1592次閱讀
    新手小白必看!<b class='flag-5'>關(guān)于</b>A100云主機(jī)租用,<b class='flag-5'>你想</b>知道的一切<b class='flag-5'>都在這</b>!

    小小UHF,大大乾坤|一個工程師眼里的連接器世界

    如果你想了解更多UHF連接器的真實細(xì)節(jié),歡迎關(guān)注?德索連接器公眾號。 在這里,有工廠的技術(shù)積累,也有我,一個工程師的碎碎念。
    的頭像 發(fā)表于 10-15 18:02 ?1882次閱讀
    小小UHF,大大乾坤|一個工程師眼里的連接器世界

    小語種OCR標(biāo)注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標(biāo)注實戰(zhàn)解析

    與一致性校驗,實現(xiàn)高精度、低成本的小語種OCR訓(xùn)練數(shù)據(jù)生成。該方案將數(shù)據(jù)準(zhǔn)備周期 從數(shù)周縮短至數(shù)小時 ,為小語種模型的快速迭代與冷啟動提供全新范式 一、引言:小語種OCR的“數(shù)據(jù)之困” 在跨境支付、多語言文檔處理、全球化應(yīng)用本
    的頭像 發(fā)表于 08-29 11:26 ?3641次閱讀
    小語種<b class='flag-5'>OCR</b>標(biāo)注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標(biāo)注實戰(zhàn)解析

    【嘉楠堪智K230開發(fā)板試用體驗】+OCR實現(xiàn)

    OCR OCR(Optical Character Recognition,光學(xué)字符識別)是一種將圖像中的文字內(nèi)容轉(zhuǎn)換為可編輯、可搜索文本的技術(shù)。其核心在于通過圖像預(yù)處理、字符分割、特征提取與模式
    發(fā)表于 08-23 18:53

    如何利用OCR技術(shù)實現(xiàn)高效集裝箱箱號識別?

    在現(xiàn)代物流和海關(guān)監(jiān)管領(lǐng)域,快速準(zhǔn)確地識別集裝箱箱號是提升通關(guān)效率、降低運營成本的關(guān)鍵。OCR(光學(xué)字符識別)技術(shù)的應(yīng)用,為這一需求提供智能化解決方案。通過結(jié)合高清成像設(shè)備和先進(jìn)的算法,OCR技術(shù)
    的頭像 發(fā)表于 08-12 10:48 ?864次閱讀
    如何利用<b class='flag-5'>OCR</b>技術(shù)實現(xiàn)高效集裝箱箱號識別?

    端側(cè)OCR文字識別實現(xiàn) -- Core Vision Kit ##HarmonyOS SDK AI##

    獲取圖片url,把這個url和token再發(fā)給百度的ocr接口獲取識別數(shù)據(jù)……或者圖片轉(zhuǎn)base64以后把這個base64發(fā)給接口,然而鴻蒙這里,目前我也不知道啥原因(可能是發(fā)送請求的數(shù)據(jù)長度有限
    發(fā)表于 06-30 18:07

    BK 機(jī)床控制變壓器精度上不去?問題可能在這兒!

    加工訂單的精度要求越來越“卷”,可BK機(jī)床控制變壓器的表現(xiàn)卻總是“拖后腿”,這讓不少工廠負(fù)責(zé)人愁得直撓頭。明明設(shè)備配置不低,為啥加工出來的零件就是達(dá)不到理想精度?想要解決問題,還得從BK機(jī)床控制變壓器的“心臟”——硅鋼片鐵芯入手。控制變壓器鐵芯硅鋼片鐵芯在BK機(jī)床控制變壓器中起著電能轉(zhuǎn)換和傳輸?shù)年P(guān)鍵作用。然而,硅鋼片的材質(zhì)等級、裁剪工藝以及裝配過程中的細(xì)節(jié),
    的頭像 發(fā)表于 06-18 10:09 ?545次閱讀
    BK 機(jī)床控制變壓器精度上不去?問題<b class='flag-5'>可能</b>出<b class='flag-5'>在這兒</b>!

    OCR識別訓(xùn)練完成后給的是空壓縮包,為什么?

    OCR識別 一共弄26張圖片,都標(biāo)注好了,點擊開始訓(xùn)練,顯示訓(xùn)練成功,也將壓縮包發(fā)到郵箱,下載下來后,壓縮包里面是空的 OCR圖片2
    發(fā)表于 05-28 06:46

    虹科直播 | 超全NVH使用“避坑”全攻略!你想了解都在這里!

    當(dāng)各類抖動異響問題成為車主關(guān)注的焦點,越來越多的診斷技師也開始尋找能夠快速診斷NVH問題的“法寶”。作為被眾多知名車廠選擇的NVH診斷工具,你是否也有對虹科Pico的NVH設(shè)備充滿好奇?·型號眾多的設(shè)備套裝該如何選擇?·使用起來是否容易?·有哪些容易踩的“小坑”?怎樣規(guī)避?·設(shè)備應(yīng)當(dāng)如何養(yǎng)護(hù)?·掌握波形診斷,如何實現(xiàn)降本增效?5月8日本周四晚8點,陸瑾老師就
    的頭像 發(fā)表于 05-07 11:32 ?555次閱讀
    虹科直播 | 超全NVH使用“避坑”全攻略!<b class='flag-5'>你想了解</b>的<b class='flag-5'>都在這</b>里!