91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI:計(jì)算機(jī)視覺與自然語言處理融合的研究進(jìn)展

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:python遇見NLP ? 2020-12-26 09:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀

通過語言給予智能體指示使其完成通用性的任務(wù)是人工智能領(lǐng)域的愿景之一。近年來有越來越多的學(xué)者試圖通過融合計(jì)算機(jī)視覺與自然語言處理領(lǐng)域的相關(guān)技術(shù)以期實(shí)現(xiàn)此目標(biāo)。

近年來,深度學(xué)習(xí)方法已經(jīng)在計(jì)算機(jī)視覺、自然語言處理和自動(dòng)語音識(shí)別等各個(gè)領(lǐng)域得到了廣泛而深入的應(yīng)用,推動(dòng)了人臉識(shí)別、自動(dòng)駕駛和語音識(shí)別等一系列技術(shù)的發(fā)展和成熟。在很多目標(biāo)清晰、規(guī)則明確的任務(wù)比如物體檢測(cè)、目標(biāo)分割甚至是圍棋、象棋領(lǐng)域達(dá)到甚至超越了人類的表現(xiàn)。但是當(dāng)前深度學(xué)習(xí)領(lǐng)域的研究往往局限在特定領(lǐng)域甚至特定的任務(wù)上,對(duì)于環(huán)境往往也有許多假設(shè)或是限制,與通用人工智能或是自主智能體的目標(biāo)相去甚遠(yuǎn)。

像圖像描述、視覺問答和文本圖像生成等視覺與語言交叉領(lǐng)域的研究,往往缺乏對(duì)于環(huán)境的理解,而近年來陸續(xù)出現(xiàn)的將視覺和語言與行為聯(lián)系的研究,比如視覺語言導(dǎo)航、具身問答和交互式問答等,不但需要融合視覺與語言技術(shù),還需要智能體針對(duì)基于文本的問題,在虛擬的空間環(huán)境中進(jìn)行路徑規(guī)劃和探索,相對(duì)而言是對(duì)視覺與語言的深度融合。

下面先來了解一下早期研究較多的幾個(gè)融合視覺與語言的任務(wù)。

圖像描述

最早被提出的問題是圖像描述,即根據(jù)給定圖片自動(dòng)生成語言描述。初期解決方案分為圖像預(yù)處理、特征提取和文本生成三個(gè)模塊,比如圖像算子提取特征,SVM 檢測(cè)可能存在的目標(biāo),根據(jù)目標(biāo)屬性生成句子,但是對(duì)于目標(biāo)屬性定義的依賴限制了描述的生成。近年來則大多基于深度學(xué)習(xí)提出解決方案,2015 年谷歌 DeepMind 團(tuán)隊(duì)和李飛飛團(tuán)隊(duì)分別提出了基于編碼—解碼框架的show and tell 和 neural talk 模型,均使用 CNN+RNN 的模式;生成對(duì)抗網(wǎng)絡(luò)、深度強(qiáng)化學(xué)習(xí)和注意力機(jī)制也被陸續(xù)引入相關(guān)研究。隨著解決方案的成熟,圖像描述任務(wù)也不斷擴(kuò)展,比如基于群組的圖像描述方法和生成文本的風(fēng)格化問題等。

視覺問答

視覺問答可以視作圖像描述問題的邏輯推理擴(kuò)展,任務(wù)形式通常是,給定一幅圖片和基于圖片的問題,輸出問題的正確答案,包括是或否的二元邏輯問題和多項(xiàng)選擇以及圖像中的文本信息等。解決方法基本可劃分為四類:聯(lián)合嵌入模型、注意力機(jī)制模型、模塊化組合模型和知識(shí)庫增強(qiáng)模型。聯(lián)合嵌入方法將圖像和文字在公共特征空間學(xué)習(xí),注意力機(jī)制使用局部圖像特征對(duì)不同區(qū)域的特征加權(quán)解決噪聲問題,模塊化組合模型引入不同功能的神經(jīng)網(wǎng)絡(luò)模塊,知識(shí)庫增強(qiáng)模型通過外部知識(shí)庫解決需要先驗(yàn)知識(shí)的問題。作為視覺問答的拓展領(lǐng)域視頻問答也越來越多受到學(xué)者的關(guān)注。

文本圖像生成

文本圖像生成則正好是圖像描述的逆向問題,從給定文本描述生成圖像。變分自編碼器、基于流的生成模型和近似PixelCNN等方法都曾用于解決此問題。但是自生成對(duì)抗網(wǎng)絡(luò)引入文本圖像生成以來,因其卓越表現(xiàn)已成為主流方法。當(dāng)前基于 GAN 的優(yōu)化方向主要有:其一是調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),比如增加網(wǎng)絡(luò)深度或者引入多個(gè)判別器,其二是充分利用文本信息,比如注意力機(jī)制和 MirrorGAN等工作,其三是增加額外約束,比如 Condition-GAN機(jī)制等工作,其四是分階段生成,比如李飛場(chǎng)景圖和語義中間層等工作。同樣文本圖像生成任務(wù)形式也得到了進(jìn)一步拓展,比如基于多段落生成系列圖片的故事可視化任務(wù)和文本生成視頻等。

視覺對(duì)話

視覺對(duì)話可以視為圖像描述問題的對(duì)話擴(kuò)展,在 2017 年 CVPR 會(huì)議上由佐治亞理工學(xué)院的 Das A 等人提出,與視覺問答中單次交互不同,視覺對(duì)話要求智能體基于視覺內(nèi)容與人類進(jìn)行多次交流。具體講,就是在給定圖像、對(duì)話歷史記錄和關(guān)于圖像問題的條件下,智能體必須基于圖像內(nèi)容,從歷史記錄中推斷上下文,并準(zhǔn)確地回答該問題。與此相似的還有‘Guess What?!’任務(wù)但是其僅限于答案為“是”或“否”的布爾型問題,Alamri H 等人則進(jìn)一步引入了視頻對(duì)話的任務(wù)。視覺對(duì)話目前的解決方案主要有基于深度強(qiáng)化學(xué)習(xí)的模型、注意力機(jī)制、條件變分自編碼器方法和基于神經(jīng)網(wǎng)絡(luò)模塊的架構(gòu)等。

多模態(tài)機(jī)器翻譯

多模態(tài)機(jī)器翻譯則是對(duì)機(jī)器翻譯工作的擴(kuò)展,其目標(biāo)是給定描述圖片的源語言和圖片本身,根據(jù)文本內(nèi)容和圖像提供的額外信息翻譯成目標(biāo)語言,同時(shí) Specia 定義了兩類任務(wù),其一是單句源語言描述圖片,其二是多句源語言描述圖片,Elliott 等人進(jìn)一步將任務(wù)二擴(kuò)展到多種源語言(比如關(guān)于同一圖片英語、法語和德語描述),Wang Xin 等人則進(jìn)一步把任務(wù)擴(kuò)展到視頻層面。研究方向主要有:引入注意力機(jī)制,分解任務(wù)目標(biāo),充分發(fā)掘圖片的視覺特征,強(qiáng)化學(xué)習(xí)方法的使用,無監(jiān)督學(xué)習(xí)模型的擴(kuò)展等。

除了以上任務(wù)之外,還有定位視頻中文本位置的視頻文本定位任務(wù),判斷文本描述和圖片內(nèi)容是否匹配的視覺蘊(yùn)涵任務(wù),問題必須基于圖片內(nèi)容進(jìn)行推理才能回答的視覺推理任務(wù)等。包括上述問題在內(nèi)的大部分早期研究往往是在視覺和語言的層次上不斷擴(kuò)展,比如將圖片擴(kuò)展到視頻,從句子擴(kuò)展到段落等,或者在此基礎(chǔ)上加入邏輯層面的推理等。

但在一定意義上講,上述任務(wù)僅僅是計(jì)算機(jī)視覺和自然語言處理兩個(gè)任務(wù)的弱耦合,甚至部分任務(wù)可以把視覺部分和語言部分完全分離地進(jìn)行訓(xùn)練,將其中一部分的輸出作為另一部分的輸入就能實(shí)現(xiàn)任務(wù)的要求,因此沒有真正的發(fā)掘視覺與語言的內(nèi)在聯(lián)系,并且其更多的側(cè)重于特定任務(wù)的完成,對(duì)于環(huán)境的感知是被動(dòng)甚至缺失的。因此,為了真正發(fā)掘視覺與語言的內(nèi)在聯(lián)系,在最新的視覺與語言的研究中,加入了行為規(guī)劃的部分,這使得智能體不但能夠綜合使用視覺與語言能力,還能夠不斷通過與環(huán)境主動(dòng)地交互獲取所需要的信息,在交互中完成對(duì)環(huán)境的理解,進(jìn)而完成指定的任務(wù)。下面介紹在這最新研究方向上的任務(wù),主要包括視覺語言導(dǎo)航和具身問答任務(wù)。

視覺與語言導(dǎo)航

視覺導(dǎo)航和語言導(dǎo)航相關(guān)研究

基于視覺的導(dǎo)航往往需要環(huán)境的先驗(yàn)信息,或者需要使用激光雷達(dá)、深度圖或從運(yùn)動(dòng)中獲取的數(shù)據(jù)以純幾何方法構(gòu)建三維地圖,或者需要人類指導(dǎo)的地圖構(gòu)造過程。并且在地圖構(gòu)造的過程中,即使環(huán)境有明顯的模式或特征,但是在被完全建模之前也是不能被觀察到的。環(huán)境構(gòu)建與路徑規(guī)劃之間的分離使得系統(tǒng)變得脆弱,因此越來越多的研究開始轉(zhuǎn)向端到端的學(xué)習(xí)方式——不需要顯式的模型或狀態(tài)估計(jì)便可實(shí)現(xiàn)從環(huán)境圖像到路徑行為的轉(zhuǎn)換。

同時(shí)學(xué)者很早就開始關(guān)注對(duì)于自然語言的理解,引入語言指引的導(dǎo)航策略也受到過許多關(guān)注,但是其往往對(duì)于語言或環(huán)境作出了一定程度的抽象,比如語言指令限制在特定范圍或假設(shè)語言命令有固定的結(jié)構(gòu)以及將環(huán)境中的物體做特定標(biāo)記,或者將智能體限制在只需要有限知覺的視覺受限環(huán)境中。近年來雖然有很多新的多模態(tài)非結(jié)構(gòu)化的仿真平臺(tái)比如 House3D 、 AI2-THOR和HoME等,但是其基于人工合成而非真實(shí)圖像的模型一定程度上限制了環(huán)境建模的準(zhǔn)確性和豐富性。

視覺語言導(dǎo)航任務(wù)內(nèi)容

Qi Wu 等人在 2018 年 CVPR 會(huì)議上提出了視覺語言導(dǎo)航任務(wù),要求智能體在給定語言指令的情況下,在作者提供的 Matterport3D simulator 仿真環(huán)境中,從隨機(jī)初始位置到達(dá)目標(biāo)位置,并且其仿真環(huán)境構(gòu)建于包含大量基于真實(shí)圖像生成的 RGB-D 全景圖的數(shù)據(jù)集 Matterport3D。但是其相對(duì)復(fù)雜和具體的語言描述與實(shí)際不太相符。因此在 2019 年,Qi Wu 等人進(jìn)一步提出被稱為 RERERE(remote embodied referring expressions in real indoor environments) 的任務(wù),精簡(jiǎn)指令的同時(shí)引入了對(duì)于環(huán)境的理解。

視覺語言導(dǎo)航任務(wù)最新進(jìn)展

Qi Wu 提出任務(wù)的同時(shí),同時(shí)提出了將智能體建模為基于長(zhǎng)短期記憶(long short term memory, LSTM) 序列到序列結(jié)構(gòu) (sequence-to-sequence architecture)注意力機(jī)制循環(huán)神經(jīng)網(wǎng)絡(luò)的解決方案和隨機(jī)移動(dòng)策略和最短路徑策略兩種基線算法以及人類在此任務(wù)中的表現(xiàn)(成功率 86.4%)。

視覺語言導(dǎo)航任務(wù)也可以視為在給定語言指導(dǎo)條件下尋找從起始點(diǎn)到目標(biāo)點(diǎn)最佳路徑的軌跡搜索問題,基于此 Fried D 提出 speaker-follower 系統(tǒng),系統(tǒng)中的 speaker 模型用于學(xué)習(xí)路徑描述,follower 模型用于預(yù)測(cè)和執(zhí)行路徑,并使用全景行為空間代替視覺運(yùn)動(dòng)空間的方式使得智能體可以感知當(dāng)前位置 360°全景視覺。

為解決視覺語言導(dǎo)航任務(wù)中的解決跨模態(tài)基標(biāo)對(duì)準(zhǔn)問題和增強(qiáng)泛化能力,Xin Wang 等人提出基于強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的策略,引入了強(qiáng)化跨模態(tài)匹配方法和自監(jiān)督模仿學(xué)習(xí)方法。

在之前的研究中,視覺語言導(dǎo)航任務(wù)中主要評(píng)價(jià)指標(biāo)是任務(wù)完成度即最終位置與目標(biāo)位置之間的關(guān)系,因此語言指示在導(dǎo)航任務(wù)所發(fā)揮的作用難以量化。谷歌研究院的 Jain V 等人因此提出可刻畫預(yù)測(cè)路徑與語言指示之間契合度的評(píng)價(jià)標(biāo)準(zhǔn) CLS(coverage weighted by length score),并根據(jù)此指標(biāo)擴(kuò)展了 R2R 數(shù)據(jù)集,提出包含更多節(jié)點(diǎn)和更多樣化路徑的 R4R(room-for-room)數(shù)據(jù)集。

在實(shí)際導(dǎo)航場(chǎng)景中,使用者更傾向于利用簡(jiǎn)練的語言給定任務(wù)的內(nèi)容而非具體詳盡地描述路徑的所有信息,因此 Qi Wu 等人進(jìn)一步提出 remote embodied referring expressions in

real indoor environments(RERERE) 的任務(wù),其中包含類似“去帶條紋墻紙的臥室”的導(dǎo)航部分和類似“把放在凳子旁邊的枕頭拿給我”的指稱表達(dá)部分,并提供了被稱為導(dǎo)航—指向模型的基線算法。

具身問答

具身認(rèn)知概念

具身認(rèn)知 (embodied cognition) 這一概念是隨著哲學(xué)、人工智能和相關(guān)領(lǐng)域的發(fā)展關(guān)于認(rèn)知的本質(zhì)被重新思考和定義的過程中誕生的,新的研究越來越傾向于認(rèn)為大多數(shù)現(xiàn)實(shí)世界的思考常常發(fā)生在非常特殊通常也十分復(fù)雜的環(huán)境中,出于非常實(shí)際的目的,并且利用外部事物的可交互性和可操作性 ,即認(rèn)知是一種非常具體化和情景化的活動(dòng)。身體的解剖學(xué)結(jié)構(gòu)、身體的活動(dòng)方式、身體的感覺和運(yùn)動(dòng)體驗(yàn)都決定了人類怎樣認(rèn)識(shí)和看待世界。簡(jiǎn)而言之,具身認(rèn)知理論認(rèn)為人的生理體驗(yàn)與心理狀態(tài)之間是有著深刻的內(nèi)在聯(lián)系。因此具身相關(guān)任務(wù)的內(nèi)涵,就是將任務(wù)具體化到可交互的場(chǎng)景中,而非傳統(tǒng)的靜態(tài)圖片或無法互動(dòng)的視頻。

具身問答任務(wù)內(nèi)容

具身問答 (embodied question answering) 是 Das 等人在 2018 年 CVPR 會(huì)議上提出的任務(wù),將智能體隨機(jī)安放在三維環(huán)境中的某個(gè)位置,并且以語言的形式提出類似“汽車的顏色是什么”或者“有多少個(gè)房間里有椅子”等類似需要環(huán)境信息的問題,為了得到問題的答案,智能體需要自主地對(duì)環(huán)境進(jìn)行探索并且收集所需要的信息,最后對(duì)問題作出解答。智能體僅依靠單目全景 RGB 攝像頭與環(huán)境交互,而沒有類似環(huán)境地圖、自身定位的全局表示或類似物體信息、房間描述的結(jié)構(gòu)表示,當(dāng)然也沒有關(guān)于任務(wù)本身的額外信息,即先驗(yàn)知識(shí)幾乎為零,需要智能體充分理解任務(wù)內(nèi)容的情況下,通過與具體環(huán)境的不斷交互,實(shí)現(xiàn)對(duì)環(huán)境的理解,進(jìn)而完成問題的回答。

具身問答任務(wù)最新進(jìn)展

Das 等人提供的基線算法中智能體視覺、語言、導(dǎo)航和回答四個(gè)部分的實(shí)現(xiàn),其中視覺部分基于通過 CNN 將 RGB 圖像生成固定大小的表示,語言部分使用 LSTM 編碼,導(dǎo)航部分引入包含選擇動(dòng)作(前進(jìn),左轉(zhuǎn),右轉(zhuǎn))的規(guī)劃模塊和指定執(zhí)行次數(shù)(1, 2…)的控制模塊的自適應(yīng)倍率計(jì)算方法,問答部分計(jì)算智能體軌跡最后五幀的圖像-問題相似性的視覺編碼與問題的 LSTM 編碼進(jìn)行比較并輸出結(jié)果。

在上述研究的基礎(chǔ)上,受人類將行為概念化為一系列更高層次語義目標(biāo)(比如為了吃夜宵,人類會(huì)將其抽象為“離開臥室—走到廚房—打開冰箱—找到甜點(diǎn)”而不會(huì)詳盡地規(guī)劃路線)的啟發(fā),Das 等人進(jìn)一步提出了模塊化學(xué)習(xí)策略,將學(xué)習(xí)目標(biāo)加以分解。

Yu L 等人則把 EQA 任務(wù)擴(kuò)展為 MT-EQA(multi-target EQA) 即在問題形式中引入了多目標(biāo),比如類似“臥室里的梳妝臺(tái)比廚房里的烤箱更大么”這樣的問題。

Wijmans E 等人設(shè)計(jì)了基于三維點(diǎn)云格式的具身問答數(shù)據(jù)集 MP3D-EQA,設(shè)計(jì)并測(cè)試了多達(dá) 16 種不同的導(dǎo)航策略組合,提出損失加權(quán)方案 Inflection Weighting 以提高行為模仿的有效性。

相關(guān)數(shù)據(jù)集介紹

視覺語言導(dǎo)航任務(wù)主要包含 3 個(gè)數(shù)據(jù)集,其一是 Qi Wu等人在提出視覺語言導(dǎo)航任務(wù)時(shí)開源的 R2R(room-to-room) 數(shù)據(jù)集,其二是 Jain V 等人在改進(jìn)任務(wù)評(píng)價(jià)方法時(shí)開源的R4R(room-for-room) 數(shù)據(jù)集,其三是 Qi Wu 等人提出RERERE 任務(wù)時(shí)建立的數(shù)據(jù)集(暫未開源)。表 1 是三個(gè)數(shù)據(jù)集的簡(jiǎn)單對(duì)比,從對(duì)比中可以發(fā)現(xiàn),因?yàn)?R4R 數(shù)據(jù)集更傾向于使得智能體運(yùn)動(dòng)軌跡更加符合導(dǎo)航指令而非最短距離,因此參考路徑的長(zhǎng)度要大于最短路徑的長(zhǎng)度;而 RERERE 任務(wù)則傾向于使用更加簡(jiǎn)潔的指令,因此指令平均長(zhǎng)度要小于R2R。

具身問答任務(wù)數(shù)據(jù)集主要包括 3 個(gè)數(shù)據(jù)集,其一是 Das等人開源的 EQA(embodied question answering) v1 數(shù)據(jù)集,其二是 Yu L 等人引入多目標(biāo)任務(wù)時(shí)提出的 MT-EQA(multitarget EQA) 數(shù)據(jù)集,其三是 Wijmans E 等人將任務(wù)中的數(shù)據(jù)類型替換為點(diǎn)云時(shí)提出的數(shù)據(jù)集 MP3D-EQA 數(shù)據(jù)集,后兩個(gè)數(shù)據(jù)集暫時(shí)未開源。表 2 是三個(gè)數(shù)據(jù)集的內(nèi)容對(duì)比。需要注意的是,數(shù)據(jù)集中包含被稱為 unique question 的問題,是指可能產(chǎn)生歧義的問題,比如房間中同時(shí)存在兩臺(tái)冰箱時(shí),問題 ‘What room is the air conditioner located in?’ 就會(huì)產(chǎn)生歧義。

37bc9962-4691-11eb-8b86-12bb97331649.png

382e813a-4691-11eb-8b86-12bb97331649.png

計(jì)算機(jī)視覺與自然語言處理融合未來方向展望

真實(shí)環(huán)境遷移與泛化能力

視覺與自然語言結(jié)合的任務(wù)取得了令人矚目的進(jìn)展,從早期簡(jiǎn)單將兩部分技術(shù)簡(jiǎn)單串聯(lián)加和的形式擴(kuò)展到需要智能體借助視覺和語言理解環(huán)境并且采取行動(dòng)的深度融合,但是絕大部分任務(wù)都是基于現(xiàn)有的數(shù)據(jù)集在模擬的環(huán)境中進(jìn)行。誠(chéng)然,考慮到目前表現(xiàn)較好的算法均是基于需要大量試錯(cuò)的深度強(qiáng)化學(xué)習(xí)方法,在真實(shí)環(huán)境中訓(xùn)練的確會(huì)消耗大量的時(shí)間與精力,但是在模擬環(huán)境表現(xiàn)完美的模型遷移到真實(shí)環(huán)境中也可能會(huì)遇到很多意料之外的問題。

而現(xiàn)有的絕大部分研究只是在數(shù)據(jù)集上達(dá)到了較高的精度(比如視覺語言導(dǎo)航任務(wù)中 SOTA 算法在可見驗(yàn)證集和不可見驗(yàn)證集上分別達(dá)到了73.0%和 61.3%的成功率),僅有少數(shù)學(xué)者將算法在實(shí)際環(huán)境中加以驗(yàn)證。因此未來研究重要方向之一是如何將模型遷移到真實(shí)環(huán)境中。在此過程中,泛化能力又是其中關(guān)鍵,即智能體若遇到訓(xùn)練集中未出現(xiàn)的環(huán)境或者未遇到的物體,能否根據(jù)過往經(jīng)驗(yàn)作出較為合理的反應(yīng),可能的解決方案是借鑒已經(jīng)在視覺對(duì)話、常識(shí)推理和事實(shí)預(yù)測(cè)等方向得到廣泛使用和驗(yàn)證的外部知識(shí)庫方法,即利用事實(shí)性或常識(shí)性的先驗(yàn)知識(shí)提高智能體對(duì)于環(huán)境的理解和認(rèn)知能力。

與環(huán)境更強(qiáng)大的交互能力

目前已經(jīng)開源的數(shù)據(jù)集中,智能體與環(huán)境之間的交互相對(duì)有限,僅涉及打開微波爐、移動(dòng)物體或到達(dá)指定位置等基本操作,并且可采取的運(yùn)動(dòng)形式限制在特定范圍(比如前進(jìn)、左轉(zhuǎn)和右轉(zhuǎn)),雖然在最新的研究中已經(jīng)涉及類似“把放在凳子旁邊的枕頭拿給我”這類相對(duì)較為復(fù)雜的交互形式,但是顯然與真實(shí)環(huán)境的交互方式和運(yùn)動(dòng)形式有較大的差距,并且簡(jiǎn)化了真實(shí)環(huán)境中的諸多物理性限制,比如“去廚房拿一個(gè)雞蛋”和“去廚房拿一把勺子”語言指示,在真實(shí)的環(huán)境中智能體需要考慮分別以何種的力度夾取雞蛋和勺子,而現(xiàn)有的數(shù)據(jù)集并不考慮此類區(qū)別。

另一個(gè)比較有前景的方向是與物聯(lián)網(wǎng)的深度結(jié)合,電視、空調(diào)和冰箱等對(duì)于人類而言需要后天習(xí)得交互方式的電器,卻因其規(guī)則明確和易于聯(lián)網(wǎng)的性質(zhì)能夠與智能體直接交互。最后就是對(duì)環(huán)境中其他信息的利用,比如利用聲音信息對(duì)不可見物體的非視距重建、使用工具達(dá)成指定目標(biāo)甚至與環(huán)境中其他智能體的對(duì)話交流等。這些與環(huán)境的相對(duì)復(fù)雜的交互是目前研究所欠缺的,但也是未來智能體在真實(shí)環(huán)境中運(yùn)行所需要的。

推理能力的引入

目前無論是視覺語言導(dǎo)航還是具身問答,所給的任務(wù)都相對(duì)直接(比如根據(jù)語言提示到達(dá)某個(gè)房間或者回答環(huán)境中某物體是什么顏色等),但是現(xiàn)實(shí)生活中更多是是需要推理能力的問題,比如類似視覺推理任務(wù)中的比較、屬性識(shí)別和邏輯運(yùn)算等初級(jí)推理能力,以及演繹、歸納和類比等高級(jí)推理能力。雖然在部分研究中已經(jīng)涉及推理能力,但仍相對(duì)簡(jiǎn)單,未來可能會(huì)引入類似“房間裝修是什么風(fēng)格?”或者“到書房中取一本散文集?!?br />
這種涉及相對(duì)高級(jí)推理能力的任務(wù),前者需要智能體基于房間的整體特征比如吊燈的樣式、桌椅的擺放和墻紙的花飾等信息歸納推理得出裝修風(fēng)格的答案,后者則需要智能體能夠區(qū)分散文、小說或詩歌等不同的文體。當(dāng)然目前視覺和自然語言方面的進(jìn)展距離解決此類問題仍有較大空間,但是推理能力尤其是高級(jí)推理能力的研究不失為一個(gè)值得關(guān)注的研究方向。

三維數(shù)據(jù)的使用

三維點(diǎn)云數(shù)據(jù)可以提供比圖像更豐富和準(zhǔn)確的信息,Wijmans E 等人發(fā)現(xiàn)在具身問答任務(wù)中點(diǎn)云信息可以提升智能體避障能力的學(xué)習(xí),Wang Y 等人甚至發(fā)現(xiàn)僅僅將二維的雙目視覺圖像轉(zhuǎn)換為三維點(diǎn)云數(shù)據(jù)就能大幅提高目標(biāo)檢測(cè)的準(zhǔn)確度,因此點(diǎn)云數(shù)據(jù)可能不單在信息內(nèi)容方面甚至是在數(shù)據(jù)表示方面均提供了更多的信息。但是一方面受制于點(diǎn)云數(shù)據(jù)獲取的成本和難度,成本百元的相機(jī)模組在短短幾秒鐘內(nèi)便可獲取千萬像素級(jí)別的高精度圖像,但是點(diǎn)云獲取設(shè)備往往動(dòng)輒數(shù)十萬獲取時(shí)間也往往需要數(shù)分鐘甚至數(shù)小時(shí)。

另一方面基于點(diǎn)云的深度學(xué)習(xí)研究相對(duì)滯后于圖像,雖然得益于 Point Net++、ASCN、和 SplatNet等方法的提出,點(diǎn)云數(shù)據(jù)固有的無序性和旋轉(zhuǎn)性不再是應(yīng)用深度學(xué)習(xí)技術(shù)的障礙,但是學(xué)術(shù)界對(duì)于點(diǎn)云數(shù)據(jù)的研究仍遠(yuǎn)遠(yuǎn)少于圖像數(shù)據(jù)。因此不論是點(diǎn)云數(shù)據(jù)集的構(gòu)建還是基于點(diǎn)云數(shù)據(jù)的研究均不同程度的存在一些困難。后續(xù)的研究可能需要更多的引入點(diǎn)云格式的環(huán)境信息,為了彌補(bǔ)目前點(diǎn)云數(shù)據(jù)獲取困難的狀況,基于雙目視覺的三維重建可能是很有希望的輔助手段之一。

學(xué)習(xí)目標(biāo)的優(yōu)化

建構(gòu)主義者認(rèn)為,學(xué)習(xí)是學(xué)習(xí)者在與環(huán)境交互作用的過程中主動(dòng)地建構(gòu)內(nèi)部心理表征的過程。而本文現(xiàn)在已經(jīng)擁有了多個(gè)可交互的模擬環(huán)境,因此后續(xù)的研究可以在不斷地交互進(jìn)行比如對(duì)自然語言的理解或者對(duì)環(huán)境中工具的使用等能力的學(xué)習(xí)和提升。此外從表 1 的分類中可以看出,視覺語言導(dǎo)航、具身問答以及交互式問答等在語言層面仍停留于“問答”階段,即針對(duì)單一問題給出正確的答案,未來的研究中很有可能將目標(biāo)優(yōu)化到“對(duì)話”層面,即針對(duì)多個(gè)有內(nèi)在邏輯聯(lián)系的問題分別給出正確答案,同時(shí)問題之間的內(nèi)在聯(lián)系也有助于智能體更好地理解環(huán)境。

注:本文旨在學(xué)習(xí)和分享,如內(nèi)容上有不到之處,歡迎批評(píng)指正

參考文獻(xiàn):

[1]李睿,鄭順義,王西旗.視覺—語言—行為:視覺語言融合研究綜述[J/OL].計(jì)算機(jī)應(yīng)用研究:1-8[2020-09-06].https://doi.org/10.19734/j.issn.1001-3695.2019.09.0512.

責(zé)任編輯:xj

原文標(biāo)題:一文了解計(jì)算機(jī)視覺與自然語言處理融合的研究進(jìn)展

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1715

    瀏覽量

    47625
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13987

原文標(biāo)題:一文了解計(jì)算機(jī)視覺與自然語言處理融合的研究進(jìn)展

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    融合多場(chǎng)耦合效應(yīng):生成式人工智能技術(shù)演進(jìn)及其在航空發(fā)動(dòng)機(jī)復(fù)雜工程系統(tǒng)中的賦能機(jī)制研究

    人工智能技術(shù)正經(jīng)歷著從感知智能向生成智能、再向代理智能與物理智能演進(jìn)的深刻變革。在這一進(jìn)程中,生成式AI技術(shù)的突破性發(fā)展尤為引人矚目,其不僅能夠在自然語言處理計(jì)算機(jī)
    的頭像 發(fā)表于 02-26 10:07 ?356次閱讀
    <b class='flag-5'>融合</b>多場(chǎng)耦合效應(yīng):生成式人工智能技術(shù)演進(jìn)及其在航空發(fā)動(dòng)機(jī)復(fù)雜工程系統(tǒng)中的賦能機(jī)制<b class='flag-5'>研究</b>

    自然語言處理NLP的概念和工作原理

    自然語言處理 (NLP) 是人工智能 (AI) 的一個(gè)分支,它會(huì)教計(jì)算機(jī)如何理解口頭和書面形式的人類語言
    的頭像 發(fā)表于 01-29 14:01 ?362次閱讀
    <b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>NLP的概念和工作原理

    AI機(jī)器人控制進(jìn)階教程(入門版)》閱讀指引

    的預(yù)編程,只能在結(jié)構(gòu)化環(huán)境中工作。AI的引入(如計(jì)算機(jī)視覺、自然語言處理),賦予機(jī)器人感知、理解和決策的能力,使其能適應(yīng)開放、動(dòng)態(tài)的真實(shí)世界
    的頭像 發(fā)表于 01-07 10:56 ?2187次閱讀
    《<b class='flag-5'>AI</b>機(jī)器人控制進(jìn)階教程(入門版)》閱讀指引

    上海計(jì)算機(jī)視覺企業(yè)行學(xué)術(shù)沙龍走進(jìn)西井科技

    12月5日,由中國(guó)圖象圖形學(xué)學(xué)會(huì)青年工作委員會(huì)(下簡(jiǎn)稱“青工委”)、上海市計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)視覺專委會(huì)(下簡(jiǎn)稱“專委會(huì)”)聯(lián)合主辦,上海西井科技股份有限公司、江蘇路街道商會(huì)承辦的“上海計(jì)算機(jī)
    的頭像 發(fā)表于 12-16 15:39 ?579次閱讀

    云知聲論文入選自然語言處理頂會(huì)EMNLP 2025

    近日,自然語言處理(NLP)領(lǐng)域國(guó)際權(quán)威會(huì)議 ——2025 年計(jì)算語言學(xué)與自然語言處理國(guó)際會(huì)議(
    的頭像 發(fā)表于 11-10 17:30 ?803次閱讀
    云知聲論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會(huì)EMNLP 2025

    NVIDIA DGX Spark桌面AI計(jì)算機(jī)開啟預(yù)訂

    DGX Spark 現(xiàn)已開啟預(yù)訂!麗臺(tái)科技作為 NVIDIA 授權(quán)分銷商,提供從產(chǎn)品到服務(wù)的一站式解決方案,助力輕松部署桌面 AI 計(jì)算機(jī)。
    的頭像 發(fā)表于 09-23 17:20 ?1306次閱讀
    NVIDIA DGX Spark桌面<b class='flag-5'>AI</b><b class='flag-5'>計(jì)算機(jī)</b>開啟預(yù)訂

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+可期之變:從AI硬件到AI濕件

    的基本邏輯門 所謂生物計(jì)算是一個(gè)新興的交叉學(xué)科領(lǐng)域,其研究靈感來源于自然界生命系統(tǒng)的神奇功能。它將生物學(xué)和計(jì)算機(jī)科學(xué)的原理及方法相結(jié)合,旨在利用生物分子、生物系統(tǒng)或生物過程進(jìn)行信息
    發(fā)表于 09-06 19:12

    AI芯片:加速人工智能計(jì)算的專用硬件引擎

    人工智能(AI)的快速發(fā)展離不開高性能計(jì)算硬件的支持,而傳統(tǒng)CPU由于架構(gòu)限制,難以高效處理AI任務(wù)中的大規(guī)模并行計(jì)算需求。因此,專為
    的頭像 發(fā)表于 07-09 15:59 ?1567次閱讀

    NVIDIA助力全球最大量子研究超級(jí)計(jì)算機(jī)

    NVIDIA 宣布將開設(shè)量子-AI 技術(shù)商業(yè)應(yīng)用全球研發(fā)中心(G-QuAT),該中心部署了全球最大量子計(jì)算研究專用超級(jí)計(jì)算機(jī) ABCI-Q。
    的頭像 發(fā)表于 05-22 09:44 ?899次閱讀

    自然語言提示原型在英特爾Vision大會(huì)上首次亮相

    在英特爾Vision大會(huì)上,Network Optix首次展示了自然語言提示原型,該方案將重新定義視頻管理,為各行各業(yè)由AI驅(qū)動(dòng)的洞察和效率提速。
    的頭像 發(fā)表于 04-09 09:30 ?963次閱讀

    NVIDIA 宣布推出 DGX Spark 個(gè)人 AI 計(jì)算機(jī)

    臺(tái)式超級(jí)計(jì)算機(jī)由 NVIDIA Grace Blackwell 驅(qū)動(dòng),為開發(fā)者、研究人員和數(shù)據(jù)科學(xué)家提供加速 AI 功能;系統(tǒng)由頭部計(jì)算機(jī)制造商(包括華碩、Dell Technolog
    發(fā)表于 03-19 09:59 ?779次閱讀
       NVIDIA 宣布推出 DGX Spark 個(gè)人 <b class='flag-5'>AI</b> <b class='flag-5'>計(jì)算機(jī)</b>

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,
    的頭像 發(fā)表于 03-17 15:32 ?8828次閱讀
    ?VLM(<b class='flag-5'>視覺</b><b class='flag-5'>語言</b>模型)?詳細(xì)解析

    英飛凌邊緣AI平臺(tái)通過Ultralytics YOLO模型增加對(duì)計(jì)算機(jī)視覺的支持

    對(duì)計(jì)算機(jī)視覺的支持,擴(kuò)大了當(dāng)前對(duì)音頻、雷達(dá)和其他時(shí)間序列信號(hào)數(shù)據(jù)的支持范圍。在增加這項(xiàng)支持后,該平臺(tái)將能夠用于開發(fā)低功耗、低內(nèi)存的邊緣AI視覺模型。這將給諸多應(yīng)用領(lǐng)域的機(jī)器學(xué)習(xí)開發(fā)人員
    的頭像 發(fā)表于 03-11 15:11 ?813次閱讀
    英飛凌邊緣<b class='flag-5'>AI</b>平臺(tái)通過Ultralytics YOLO模型增加對(duì)<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>的支持

    數(shù)據(jù)采集在AI行業(yè)的應(yīng)用分析

    人工智能(AI)作為21世紀(jì)最具革命性的技術(shù)之一,正在深刻改變各行各業(yè)。AI的核心驅(qū)動(dòng)力是數(shù)據(jù),而數(shù)據(jù)采集則是AI發(fā)展的基石。無論是機(jī)器學(xué)習(xí)、深度學(xué)習(xí),還是自然語言
    的頭像 發(fā)表于 03-07 14:30 ?950次閱讀

    數(shù)據(jù)采集在AI行業(yè)的應(yīng)用、優(yōu)勢(shì)及未來發(fā)展趨勢(shì)

    人工智能(AI)作為21世紀(jì)最具革命性的技術(shù)之一,正在深刻改變各行各業(yè)。AI的核心驅(qū)動(dòng)力是數(shù)據(jù),而數(shù)據(jù)采集則是AI發(fā)展的基石。無論是機(jī)器學(xué)習(xí)、深度學(xué)習(xí),還是自然語言
    的頭像 發(fā)表于 03-07 14:12 ?1407次閱讀
    數(shù)據(jù)采集在<b class='flag-5'>AI</b>行業(yè)的應(yīng)用、優(yōu)勢(shì)及未來發(fā)展趨勢(shì)