為了揭示過(guò)去的秘密,世界各地的歷史學(xué)者花費(fèi)畢生精力翻譯古代手稿。圣母大學(xué)的一個(gè)研究小組希望幫助這項(xiàng)任務(wù),用一種新開(kāi)發(fā)的機(jī)器學(xué)習(xí)模型來(lái)翻譯和記錄幾百年前的手寫(xiě)文檔。
利用圣加爾修道院圖書(shū)館的數(shù)字化手稿和一個(gè)考慮到人類(lèi)感知的機(jī)器學(xué)習(xí)模型 study 在深度學(xué)習(xí)轉(zhuǎn)錄能力方面有顯著提高。
“我們正在處理歷史文件,這些文件的書(shū)寫(xiě)風(fēng)格早已過(guò)時(shí),可以追溯到幾個(gè)世紀(jì)以前,并且使用拉丁語(yǔ)等語(yǔ)言,而拉丁語(yǔ)已經(jīng)很少使用了。你可以得到這些材料的美麗照片,但我們已經(jīng)著手做的是以一種模仿專(zhuān)家讀者眼睛對(duì)頁(yè)面感知的方式自動(dòng)轉(zhuǎn)錄,并提供快速、可搜索的文本閱讀,”圣母大學(xué)副教授、資深作者沃爾特·舍勒在新聞稿中說(shuō)。
圣加爾修道院圖書(shū)館建于 719 年,是世界上最古老、最豐富的圖書(shū)館藏品之一。該圖書(shū)館藏有大約 160000 卷書(shū)和 2000 份手稿,可追溯到八世紀(jì)。在羊皮紙上用現(xiàn)在很少使用的語(yǔ)言手工書(shū)寫(xiě),這些材料中的許多尚未被閱讀——這是一筆潛在的歷史檔案財(cái)富,等待發(fā)掘。
機(jī)器學(xué)習(xí)方法能夠自動(dòng)轉(zhuǎn)錄這些類(lèi)型的歷史文件已經(jīng)在工作中,但挑戰(zhàn)仍然存在。
到目前為止,大型數(shù)據(jù)集對(duì)于提高這些語(yǔ)言模型的性能是必不可少的。由于可供查閱的書(shū)籍?dāng)?shù)量巨大,這項(xiàng)工作需要時(shí)間,并且需要相對(duì)較少的專(zhuān)家學(xué)者進(jìn)行注釋。缺少知識(shí),如從未編纂過(guò)的中世紀(jì)拉丁語(yǔ)詞典,構(gòu)成了更大的障礙。
該團(tuán)隊(duì)將傳統(tǒng)的機(jī)器學(xué)習(xí)方法與研究物理世界和人類(lèi)行為之間關(guān)系的視覺(jué)心理物理學(xué)相結(jié)合,以創(chuàng)建更多信息豐富的注釋。在這種情況下,他們?cè)谔幚砉糯谋緯r(shí)將人類(lèi)視覺(jué)測(cè)量納入神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程。
“這是機(jī)器學(xué)習(xí)中通常不使用的策略。我們通過(guò)這些心理物理測(cè)量來(lái)標(biāo)記數(shù)據(jù),這些測(cè)量直接來(lái)自于通過(guò)行為測(cè)量對(duì)感知進(jìn)行的心理學(xué)研究。然后,我們通知網(wǎng)絡(luò)在感知這些角色方面的常見(jiàn)困難,并可以根據(jù)這些測(cè)量結(jié)果進(jìn)行糾正,” Scheirer 說(shuō)。
為了訓(xùn)練、驗(yàn)證和測(cè)試這些模型,研究人員使用了一套來(lái)自圣加爾的可追溯到九世紀(jì)的數(shù)字化手寫(xiě)拉丁手稿。他們要求專(zhuān)家閱讀并將文本行中的手動(dòng)抄本輸入定制的軟件中。測(cè)量每次抄寫(xiě)的時(shí)間,可以洞察單詞、字符或段落的難度。根據(jù)作者的說(shuō)法,這些數(shù)據(jù)有助于減少算法中的錯(cuò)誤,并提供更真實(shí)的讀數(shù)。
所有的實(shí)驗(yàn)都是使用 cuDNN-accelerated PyTorch 深度學(xué)習(xí)框架和 GPU ?!叭绻麤](méi)有 NVIDIA 硬件和軟件,我們肯定不可能完成我們所做的事情。

該研究引入了一種新的深度學(xué)習(xí)損失公式,該公式結(jié)合了人類(lèi)視覺(jué)測(cè)量,可應(yīng)用于手寫(xiě)文檔轉(zhuǎn)錄的不同處理管道。信貸: Scheirer 等人/ IEEE
團(tuán)隊(duì)仍在努力改進(jìn)某些方面。損壞和不完整的文檔以及插圖和縮寫(xiě)對(duì)模型提出了特殊的挑戰(zhàn)。
“由于互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)和 GPU 硬件,人工智能達(dá)到了拐點(diǎn),這將使文化遺產(chǎn)和人文學(xué)科與其他領(lǐng)域一樣受益。我們只是初步了解我們可以對(duì)這個(gè)項(xiàng)目做些什么。
關(guān)于作者
Michelle Horton 是 NVIDIA 的高級(jí)開(kāi)發(fā)人員通信經(jīng)理,擁有通信經(jīng)理和科學(xué)作家的背景。她在 NVIDIA 為開(kāi)發(fā)者博客撰文,重點(diǎn)介紹了開(kāi)發(fā)者使用 NVIDIA 技術(shù)的多種方式。
審核編輯:郭婷
-
gpu
+關(guān)注
關(guān)注
28文章
5204瀏覽量
135576 -
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
55文章
11341瀏覽量
110039 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8556瀏覽量
137035
發(fā)布評(píng)論請(qǐng)先 登錄
強(qiáng)化學(xué)習(xí)會(huì)讓自動(dòng)駕駛模型學(xué)習(xí)更快嗎?
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見(jiàn)錯(cuò)誤與局限性
基于ETAS嵌入式AI工具鏈將機(jī)器學(xué)習(xí)模型部署到量產(chǎn)ECU
穿孔機(jī)頂頭檢測(cè)儀 機(jī)器視覺(jué)深度學(xué)習(xí)
孔夫子舊書(shū)網(wǎng)開(kāi)放平臺(tái)接口實(shí)戰(zhàn):古籍圖書(shū)檢索與商鋪數(shù)據(jù)集成
利用NVIDIA Cosmos模型訓(xùn)練通用機(jī)器人
超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級(jí)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.
FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用
通過(guò)NVIDIA Cosmos模型增強(qiáng)機(jī)器人學(xué)習(xí)
【嘉楠堪智K230開(kāi)發(fā)板試用體驗(yàn)】K230機(jī)器視覺(jué)相關(guān)功能體驗(yàn)
最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門(mén)學(xué)習(xí)課程參考2025版(大模型篇)
邊緣計(jì)算中的機(jī)器學(xué)習(xí):基于 Linux 系統(tǒng)的實(shí)時(shí)推理模型部署與工業(yè)集成!
【「零基礎(chǔ)開(kāi)發(fā)AI Agent」閱讀體驗(yàn)】+Agent的案例解讀
國(guó)產(chǎn)地物光譜儀在“高光譜-機(jī)器學(xué)習(xí)”模型構(gòu)建中的表現(xiàn)
十大鮮為人知卻功能強(qiáng)大的機(jī)器學(xué)習(xí)模型
通過(guò)利用機(jī)器學(xué)習(xí)模型破譯古籍
評(píng)論