ICLR(International Conference on Learning Representations)對(duì)于深度學(xué)習(xí)領(lǐng)域的研究人員而言意義非凡。該會(huì)議于4月30日 - 5月3日在溫哥華舉行,全球頂尖AI研究實(shí)驗(yàn)室的專(zhuān)家齊聚一堂,分享了他們的最新研究。NVIDIA的三大NVAIL(NVIDIA AI實(shí)驗(yàn)室)合作伙伴——瑞士AI實(shí)驗(yàn)室 (IDSIA)、紐約大學(xué)和東京大學(xué),也和其他實(shí)驗(yàn)室一起分享了他們的研究成果。
IDSIA研究人員的目標(biāo)是讓機(jī)器人能像人類(lèi)一樣自然而然地理解物質(zhì)世界;東京大學(xué)的團(tuán)隊(duì)介紹了其改進(jìn)聲音識(shí)別的創(chuàng)新方法;來(lái)自紐約大學(xué)和巴斯克大學(xué)的研究團(tuán)隊(duì)介紹了他們?nèi)绾胃倪M(jìn)機(jī)器翻譯語(yǔ)言的能力。
在研究人員和工程師的協(xié)助下,NVAIL項(xiàng)目將助力AI先驅(qū)始終引領(lǐng)潮流,并為學(xué)生提供支持,獲得先進(jìn)的GPU計(jì)算能力。
萬(wàn)物有起終有落
人類(lèi)生來(lái)就能理解物質(zhì)世界:我們能夠在從未去過(guò)的房間中自如行走;如果鞋子掉了,我們知道會(huì)掉在地板上;我們也非常清楚我們不能穿越墻壁。即使是嬰兒也具備一些基本的物理概念。
但機(jī)器卻不能如此輕易地獲得這種能力。“如今,訓(xùn)練深度學(xué)習(xí)模型來(lái)理解‘萬(wàn)物有起終有落’這樣的問(wèn)題需要大量的數(shù)據(jù)和手動(dòng)標(biāo)記,”IDSIA博士生Sjoerd van Steenkiste說(shuō)道。他和來(lái)自IDSIA以及加州大學(xué)伯克利分校的研究團(tuán)隊(duì)協(xié)作,正在試圖去除海量數(shù)據(jù)和認(rèn)為參與這兩項(xiàng)要求,以求簡(jiǎn)化這一流程。
在一篇ICLR論文(Relational Neural Expectation Maximization: Unsupervised Discovery of Objects and their Interactions,研究人員描述了他們?nèi)绾卧诓煌度肴肆Φ那疤嵯掠?xùn)練神經(jīng)網(wǎng)絡(luò),這一方式被稱(chēng)為“無(wú)監(jiān)督式學(xué)習(xí)”。利用NVIDIA的DGX-1 AI超級(jí)計(jì)算機(jī),他們訓(xùn)練深度學(xué)習(xí)模型在場(chǎng)景中辨別單個(gè)對(duì)象并預(yù)測(cè)動(dòng)作的結(jié)果。
最終,該研究能使得訓(xùn)練機(jī)器人及其他機(jī)器與其環(huán)境進(jìn)行交互變得更簡(jiǎn)單,van Steenkiste指出。
混音
某些東西混合在一起就會(huì)變得更好:花生醬和巧克力的搭配堪稱(chēng)完美;金屬結(jié)合后更結(jié)實(shí)、更堅(jiān)固;將兩種農(nóng)作物種在一起產(chǎn)量會(huì)更高。
Yuji Tokozume將同樣的概念應(yīng)用到了深度學(xué)習(xí)之中。這位博士生和另外兩名東京大學(xué)的研究人員正致力于通過(guò)使用他們稱(chēng)之為“between-class”的聲音(即兩種混合在一起的聲音)來(lái)訓(xùn)練深度學(xué)習(xí)模型,從而提高聲音識(shí)別能力。該模型在NVIDIA的Tesla P100 GPU加速器上接受訓(xùn)練,以辨別兩種聲音并確定一種聲音與另一種聲音的比率。
在他們的ICLR論文(Learning from Between-class Examples for Deep Sound Recognition,中,其報(bào)告稱(chēng),“between-class”學(xué)習(xí)不僅提供了比現(xiàn)有技術(shù)更高的準(zhǔn)確性,而且在被稱(chēng)為ESC-50的標(biāo)準(zhǔn)數(shù)據(jù)集中超越了人類(lèi)在環(huán)境記錄上的表現(xiàn)。該團(tuán)隊(duì)運(yùn)用了同樣的方法來(lái)提高AI圖像識(shí)別性能。
觀看最近在硅谷舉行的GPU技術(shù)大會(huì)上有關(guān)聲音識(shí)別的“between-class”學(xué)習(xí)方面的討論,了解更多信息。
翻譯能力的缺失
雖然AI在自動(dòng)語(yǔ)言翻譯方面取得了一定成就,但對(duì)于巴斯克語(yǔ)、奧羅莫語(yǔ)和蓋丘亞語(yǔ)等不常見(jiàn)的語(yǔ)言卻作用不大。這是因?yàn)橛?xùn)練深度學(xué)習(xí)模型通常需要大型的數(shù)據(jù)集,這在語(yǔ)言領(lǐng)域中意味著需要大量已被手動(dòng)翻譯為其他語(yǔ)言的文字。
對(duì)于漢語(yǔ)、英語(yǔ)和西班牙語(yǔ)等廣泛使用的語(yǔ)言,可以找到豐富的數(shù)據(jù),因此可以直接將漢語(yǔ)翻譯成英語(yǔ),或?qū)⑽靼嘌勒Z(yǔ)翻譯成漢語(yǔ)。紐約大學(xué)和巴斯克大學(xué)的研究人員旨在將這一能力賦予使用者較少的語(yǔ)言。
巴斯克大學(xué)博士生Mikel Artetxe指出,目前像巴斯克語(yǔ)這樣的語(yǔ)言(大約有70萬(wàn)人講這種語(yǔ)言,他們主要位于跨西班牙和法國(guó)的地區(qū))必須首先被翻譯成英語(yǔ)或其他主要語(yǔ)言,然后才能轉(zhuǎn)化為其他語(yǔ)言。
奧羅莫語(yǔ)這樣的語(yǔ)言也是如此,非洲之角有超過(guò)三千萬(wàn)人使用奧羅莫語(yǔ),而南美洲有多達(dá)一千一百萬(wàn)人使用蓋丘亞語(yǔ)。
研究團(tuán)隊(duì)利用NVIDIA GPU訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)執(zhí)行這些翻譯,并且無(wú)需任何手動(dòng)翻譯的訓(xùn)練數(shù)據(jù),而是依賴(lài)于兩種語(yǔ)言的獨(dú)立文本。在他們的ICLR論文(Unsupervised Neural Machine Translation,研究人員表示,當(dāng)他們添加少量并行數(shù)據(jù)時(shí),準(zhǔn)確度有所提高,但仍遠(yuǎn)低于人工翻譯的準(zhǔn)確性。
“我們的目標(biāo)是能夠翻譯更多的語(yǔ)言并取得更好的結(jié)果”,Artexe說(shuō)道。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5598瀏覽量
109803 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5599瀏覽量
124417
原文標(biāo)題:機(jī)器自主學(xué)習(xí)、混音識(shí)別、自動(dòng)語(yǔ)言翻譯:NVAIL合作伙伴開(kāi)創(chuàng)性深度學(xué)習(xí)研究亮相ICLR
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
芯樸科技榮獲日海模組2025年度最佳合作伙伴獎(jiǎng)
軟通動(dòng)力亮相2025小米人車(chē)家全生態(tài)合作伙伴大會(huì)
亞馬遜云科技中國(guó)12家合作伙伴獲得2025年度合作伙伴獎(jiǎng)項(xiàng)
利爾達(dá)亮相2025中國(guó)移動(dòng)全球合作伙伴大會(huì),共創(chuàng)AI+時(shí)代新生態(tài)
曦智科技亮相2025中國(guó)移動(dòng)全球合作伙伴大會(huì)
海格通信重磅亮相2025中國(guó)移動(dòng)全球合作伙伴大會(huì)
SILEX希來(lái)科與QUALCOMM高通公司長(zhǎng)達(dá)15年的戰(zhàn)略合作伙伴關(guān)系 高通認(rèn)證開(kāi)發(fā)合作伙伴~高通官網(wǎng)能找到silex希來(lái)科
智能領(lǐng)先 | 美格智能亮相2025屆中國(guó)聯(lián)通合作伙伴大會(huì)
IDENTA加入恩智浦MIFARE合作伙伴計(jì)劃
2025聯(lián)想中國(guó)合作伙伴大會(huì)圓滿(mǎn)舉辦
亞馬遜云科技發(fā)布“3+2”合作伙伴戰(zhàn)略 與合作伙伴加速前行
NVAIL合作伙伴開(kāi)創(chuàng)性深度學(xué)習(xí)研究亮相ICLR
評(píng)論