91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

<button id="ygy4o"></button>

<code id="ygy4o"></code>

<cite id="yc0kc"><abbr id="yc0kc"></abbr></cite>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評(píng)論與回復(fù)

查看更多

查看更多

查看更多

VIP于到期續(xù)費(fèi)

登錄后你可以

下載海量資料
學(xué)習(xí)在線課程
觀看技術(shù)視頻
寫文章/發(fā)帖/加入社區(qū)

會(huì)員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動(dòng)

完善資料讓更多小伙伴認(rèn)識(shí)你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

AI：計(jì)算機(jī)視覺與自然語言處理融合的研究進(jìn)展

導(dǎo)讀

通過語言給予智能體指示使其完成通用性的任務(wù)是人工智能領(lǐng)域的愿景之一。近年來有越來越多的學(xué)者試圖通過融合計(jì)算機(jī)視覺與自然語言處理領(lǐng)域的相關(guān)技術(shù)以期實(shí)現(xiàn)此目標(biāo)。

近年來，深度學(xué)習(xí)方法已經(jīng)在計(jì)算機(jī)視覺、自然語言處理和自動(dòng)語音識(shí)別等各個(gè)領(lǐng)域得到了廣泛而深入的應(yīng)用，推動(dòng)了人臉識(shí)別、自動(dòng)駕駛和語音識(shí)別等一系列技術(shù)的發(fā)展和成熟。在很多目標(biāo)清晰、規(guī)則明確的任務(wù)比如物體檢測(cè)、目標(biāo)分割甚至是圍棋、象棋領(lǐng)域達(dá)到甚至超越了人類的表現(xiàn)。但是當(dāng)前深度學(xué)習(xí)領(lǐng)域的研究往往局限在特定領(lǐng)域甚至特定的任務(wù)上，對(duì)于環(huán)境往往也有許多假設(shè)或是限制，與通用人工智能或是自主智能體的目標(biāo)相去甚遠(yuǎn)。

像圖像描述、視覺問答和文本圖像生成等視覺與語言交叉領(lǐng)域的研究，往往缺乏對(duì)于環(huán)境的理解，而近年來陸續(xù)出現(xiàn)的將視覺和語言與行為聯(lián)系的研究，比如視覺語言導(dǎo)航、具身問答和交互式問答等，不但需要融合視覺與語言技術(shù)，還需要智能體針對(duì)基于文本的問題，在虛擬的空間環(huán)境中進(jìn)行路徑規(guī)劃和探索，相對(duì)而言是對(duì)視覺與語言的深度融合。

下面先來了解一下早期研究較多的幾個(gè)融合視覺與語言的任務(wù)。

圖像描述

最早被提出的問題是圖像描述，即根據(jù)給定圖片自動(dòng)生成語言描述。初期解決方案分為圖像預(yù)處理、特征提取和文本生成三個(gè)模塊，比如圖像算子提取特征，SVM 檢測(cè)可能存在的目標(biāo)，根據(jù)目標(biāo)屬性生成句子，但是對(duì)于目標(biāo)屬性定義的依賴限制了描述的生成。近年來則大多基于深度學(xué)習(xí)提出解決方案，2015 年谷歌 DeepMind 團(tuán)隊(duì)和李飛飛團(tuán)隊(duì)分別提出了基于編碼—解碼框架的show and tell 和 neural talk 模型，均使用 CNN+RNN 的模式；生成對(duì)抗網(wǎng)絡(luò)、深度強(qiáng)化學(xué)習(xí)和注意力機(jī)制也被陸續(xù)引入相關(guān)研究。隨著解決方案的成熟，圖像描述任務(wù)也不斷擴(kuò)展，比如基于群組的圖像描述方法和生成文本的風(fēng)格化問題等。

視覺問答

視覺問答可以視作圖像描述問題的邏輯推理擴(kuò)展，任務(wù)形式通常是，給定一幅圖片和基于圖片的問題，輸出問題的正確答案，包括是或否的二元邏輯問題和多項(xiàng)選擇以及圖像中的文本信息等。解決方法基本可劃分為四類：聯(lián)合嵌入模型、注意力機(jī)制模型、模塊化組合模型和知識(shí)庫增強(qiáng)模型。聯(lián)合嵌入方法將圖像和文字在公共特征空間學(xué)習(xí)，注意力機(jī)制使用局部圖像特征對(duì)不同區(qū)域的特征加權(quán)解決噪聲問題，模塊化組合模型引入不同功能的神經(jīng)網(wǎng)絡(luò)模塊，知識(shí)庫增強(qiáng)模型通過外部知識(shí)庫解決需要先驗(yàn)知識(shí)的問題。作為視覺問答的拓展領(lǐng)域視頻問答也越來越多受到學(xué)者的關(guān)注。

文本圖像生成

文本圖像生成則正好是圖像描述的逆向問題，從給定文本描述生成圖像。變分自編碼器、基于流的生成模型和近似PixelCNN等方法都曾用于解決此問題。但是自生成對(duì)抗網(wǎng)絡(luò)引入文本圖像生成以來，因其卓越表現(xiàn)已成為主流方法。當(dāng)前基于 GAN 的優(yōu)化方向主要有：其一是調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)，比如增加網(wǎng)絡(luò)深度或者引入多個(gè)判別器，其二是充分利用文本信息，比如注意力機(jī)制和 MirrorGAN等工作，其三是增加額外約束，比如 Condition-GAN機(jī)制等工作，其四是分階段生成，比如李飛場(chǎng)景圖和語義中間層等工作。同樣文本圖像生成任務(wù)形式也得到了進(jìn)一步拓展，比如基于多段落生成系列圖片的故事可視化任務(wù)和文本生成視頻等。

視覺對(duì)話

視覺對(duì)話可以視為圖像描述問題的對(duì)話擴(kuò)展，在 2017 年 CVPR 會(huì)議上由佐治亞理工學(xué)院的 Das A 等人提出，與視覺問答中單次交互不同，視覺對(duì)話要求智能體基于視覺內(nèi)容與人類進(jìn)行多次交流。具體講，就是在給定圖像、對(duì)話歷史記錄和關(guān)于圖像問題的條件下，智能體必須基于圖像內(nèi)容，從歷史記錄中推斷上下文，并準(zhǔn)確地回答該問題。與此相似的還有‘Guess What?!’任務(wù)但是其僅限于答案為“是”或“否”的布爾型問題，Alamri H 等人則進(jìn)一步引入了視頻對(duì)話的任務(wù)。視覺對(duì)話目前的解決方案主要有基于深度強(qiáng)化學(xué)習(xí)的模型、注意力機(jī)制、條件變分自編碼器方法和基于神經(jīng)網(wǎng)絡(luò)模塊的架構(gòu)等。

多模態(tài)機(jī)器翻譯

多模態(tài)機(jī)器翻譯則是對(duì)機(jī)器翻譯工作的擴(kuò)展，其目標(biāo)是給定描述圖片的源語言和圖片本身，根據(jù)文本內(nèi)容和圖像提供的額外信息翻譯成目標(biāo)語言，同時(shí) Specia 定義了兩類任務(wù)，其一是單句源語言描述圖片，其二是多句源語言描述圖片，Elliott 等人進(jìn)一步將任務(wù)二擴(kuò)展到多種源語言(比如關(guān)于同一圖片英語、法語和德語描述)，Wang Xin 等人則進(jìn)一步把任務(wù)擴(kuò)展到視頻層面。研究方向主要有：引入注意力機(jī)制，分解任務(wù)目標(biāo)，充分發(fā)掘圖片的視覺特征，強(qiáng)化學(xué)習(xí)方法的使用，無監(jiān)督學(xué)習(xí)模型的擴(kuò)展等。

除了以上任務(wù)之外，還有定位視頻中文本位置的視頻文本定位任務(wù)，判斷文本描述和圖片內(nèi)容是否匹配的視覺蘊(yùn)涵任務(wù)，問題必須基于圖片內(nèi)容進(jìn)行推理才能回答的視覺推理任務(wù)等。包括上述問題在內(nèi)的大部分早期研究往往是在視覺和語言的層次上不斷擴(kuò)展，比如將圖片擴(kuò)展到視頻，從句子擴(kuò)展到段落等，或者在此基礎(chǔ)上加入邏輯層面的推理等。

但在一定意義上講，上述任務(wù)僅僅是計(jì)算機(jī)視覺和自然語言處理兩個(gè)任務(wù)的弱耦合，甚至部分任務(wù)可以把視覺部分和語言部分完全分離地進(jìn)行訓(xùn)練，將其中一部分的輸出作為另一部分的輸入就能實(shí)現(xiàn)任務(wù)的要求，因此沒有真正的發(fā)掘視覺與語言的內(nèi)在聯(lián)系，并且其更多的側(cè)重于特定任務(wù)的完成，對(duì)于環(huán)境的感知是被動(dòng)甚至缺失的。因此，為了真正發(fā)掘視覺與語言的內(nèi)在聯(lián)系，在最新的視覺與語言的研究中，加入了行為規(guī)劃的部分，這使得智能體不但能夠綜合使用視覺與語言能力，還能夠不斷通過與環(huán)境主動(dòng)地交互獲取所需要的信息，在交互中完成對(duì)環(huán)境的理解，進(jìn)而完成指定的任務(wù)。下面介紹在這最新研究方向上的任務(wù)，主要包括視覺語言導(dǎo)航和具身問答任務(wù)。

視覺與語言導(dǎo)航

視覺導(dǎo)航和語言導(dǎo)航相關(guān)研究

基于視覺的導(dǎo)航往往需要環(huán)境的先驗(yàn)信息，或者需要使用激光雷達(dá)、深度圖或從運(yùn)動(dòng)中獲取的數(shù)據(jù)以純幾何方法構(gòu)建三維地圖，或者需要人類指導(dǎo)的地圖構(gòu)造過程。并且在地圖構(gòu)造的過程中，即使環(huán)境有明顯的模式或特征，但是在被完全建模之前也是不能被觀察到的。環(huán)境構(gòu)建與路徑規(guī)劃之間的分離使得系統(tǒng)變得脆弱，因此越來越多的研究開始轉(zhuǎn)向端到端的學(xué)習(xí)方式——不需要顯式的模型或狀態(tài)估計(jì)便可實(shí)現(xiàn)從環(huán)境圖像到路徑行為的轉(zhuǎn)換。

同時(shí)學(xué)者很早就開始關(guān)注對(duì)于自然語言的理解，引入語言指引的導(dǎo)航策略也受到過許多關(guān)注，但是其往往對(duì)于語言或環(huán)境作出了一定程度的抽象，比如語言指令限制在特定范圍或假設(shè)語言命令有固定的結(jié)構(gòu)以及將環(huán)境中的物體做特定標(biāo)記，或者將智能體限制在只需要有限知覺的視覺受限環(huán)境中。近年來雖然有很多新的多模態(tài)非結(jié)構(gòu)化的仿真平臺(tái)比如 House3D 、 AI2-THOR和HoME等，但是其基于人工合成而非真實(shí)圖像的模型一定程度上限制了環(huán)境建模的準(zhǔn)確性和豐富性。

視覺語言導(dǎo)航任務(wù)內(nèi)容

Qi Wu 等人在 2018 年 CVPR 會(huì)議上提出了視覺語言導(dǎo)航任務(wù)，要求智能體在給定語言指令的情況下，在作者提供的 Matterport3D simulator 仿真環(huán)境中，從隨機(jī)初始位置到達(dá)目標(biāo)位置，并且其仿真環(huán)境構(gòu)建于包含大量基于真實(shí)圖像生成的 RGB-D 全景圖的數(shù)據(jù)集 Matterport3D。但是其相對(duì)復(fù)雜和具體的語言描述與實(shí)際不太相符。因此在 2019 年，Qi Wu 等人進(jìn)一步提出被稱為 RERERE(remote embodied referring expressions in real indoor environments) 的任務(wù)，精簡(jiǎn)指令的同時(shí)引入了對(duì)于環(huán)境的理解。

視覺語言導(dǎo)航任務(wù)最新進(jìn)展

Qi Wu 提出任務(wù)的同時(shí)，同時(shí)提出了將智能體建模為基于長(zhǎng)短期記憶(long short term memory, LSTM) 序列到序列結(jié)構(gòu) (sequence-to-sequence architecture)注意力機(jī)制循環(huán)神經(jīng)網(wǎng)絡(luò)的解決方案和隨機(jī)移動(dòng)策略和最短路徑策略兩種基線算法以及人類在此任務(wù)中的表現(xiàn)(成功率 86.4%)。

視覺語言導(dǎo)航任務(wù)也可以視為在給定語言指導(dǎo)條件下尋找從起始點(diǎn)到目標(biāo)點(diǎn)最佳路徑的軌跡搜索問題，基于此 Fried D 提出 speaker-follower 系統(tǒng)，系統(tǒng)中的 speaker 模型用于學(xué)習(xí)路徑描述，follower 模型用于預(yù)測(cè)和執(zhí)行路徑，并使用全景行為空間代替視覺運(yùn)動(dòng)空間的方式使得智能體可以感知當(dāng)前位置 360°全景視覺。

為解決視覺語言導(dǎo)航任務(wù)中的解決跨模態(tài)基標(biāo)對(duì)準(zhǔn)問題和增強(qiáng)泛化能力，Xin Wang 等人提出基于強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的策略，引入了強(qiáng)化跨模態(tài)匹配方法和自監(jiān)督模仿學(xué)習(xí)方法。

在之前的研究中，視覺語言導(dǎo)航任務(wù)中主要評(píng)價(jià)指標(biāo)是任務(wù)完成度即最終位置與目標(biāo)位置之間的關(guān)系，因此語言指示在導(dǎo)航任務(wù)所發(fā)揮的作用難以量化。谷歌研究院的 Jain V 等人因此提出可刻畫預(yù)測(cè)路徑與語言指示之間契合度的評(píng)價(jià)標(biāo)準(zhǔn) CLS(coverage weighted by length score)，并根據(jù)此指標(biāo)擴(kuò)展了 R2R 數(shù)據(jù)集，提出包含更多節(jié)點(diǎn)和更多樣化路徑的 R4R(room-for-room)數(shù)據(jù)集。

在實(shí)際導(dǎo)航場(chǎng)景中，使用者更傾向于利用簡(jiǎn)練的語言給定任務(wù)的內(nèi)容而非具體詳盡地描述路徑的所有信息，因此 Qi Wu 等人進(jìn)一步提出 remote embodied referring expressions in

real indoor environments(RERERE) 的任務(wù)，其中包含類似“去帶條紋墻紙的臥室”的導(dǎo)航部分和類似“把放在凳子旁邊的枕頭拿給我”的指稱表達(dá)部分，并提供了被稱為導(dǎo)航—指向模型的基線算法。

具身問答

具身認(rèn)知概念

具身認(rèn)知 (embodied cognition) 這一概念是隨著哲學(xué)、人工智能和相關(guān)領(lǐng)域的發(fā)展關(guān)于認(rèn)知的本質(zhì)被重新思考和定義的過程中誕生的，新的研究越來越傾向于認(rèn)為大多數(shù)現(xiàn)實(shí)世界的思考常常發(fā)生在非常特殊通常也十分復(fù)雜的環(huán)境中，出于非常實(shí)際的目的，并且利用外部事物的可交互性和可操作性，即認(rèn)知是一種非常具體化和情景化的活動(dòng)。身體的解剖學(xué)結(jié)構(gòu)、身體的活動(dòng)方式、身體的感覺和運(yùn)動(dòng)體驗(yàn)都決定了人類怎樣認(rèn)識(shí)和看待世界。簡(jiǎn)而言之，具身認(rèn)知理論認(rèn)為人的生理體驗(yàn)與心理狀態(tài)之間是有著深刻的內(nèi)在聯(lián)系。因此具身相關(guān)任務(wù)的內(nèi)涵，就是將任務(wù)具體化到可交互的場(chǎng)景中，而非傳統(tǒng)的靜態(tài)圖片或無法互動(dòng)的視頻。

具身問答任務(wù)內(nèi)容

具身問答 (embodied question answering) 是 Das 等人在 2018 年 CVPR 會(huì)議上提出的任務(wù)，將智能體隨機(jī)安放在三維環(huán)境中的某個(gè)位置，并且以語言的形式提出類似“汽車的顏色是什么”或者“有多少個(gè)房間里有椅子”等類似需要環(huán)境信息的問題，為了得到問題的答案，智能體需要自主地對(duì)環(huán)境進(jìn)行探索并且收集所需要的信息，最后對(duì)問題作出解答。智能體僅依靠單目全景 RGB 攝像頭與環(huán)境交互，而沒有類似環(huán)境地圖、自身定位的全局表示或類似物體信息、房間描述的結(jié)構(gòu)表示，當(dāng)然也沒有關(guān)于任務(wù)本身的額外信息，即先驗(yàn)知識(shí)幾乎為零，需要智能體充分理解任務(wù)內(nèi)容的情況下，通過與具體環(huán)境的不斷交互，實(shí)現(xiàn)對(duì)環(huán)境的理解，進(jìn)而完成問題的回答。

具身問答任務(wù)最新進(jìn)展

Das 等人提供的基線算法中智能體視覺、語言、導(dǎo)航和回答四個(gè)部分的實(shí)現(xiàn)，其中視覺部分基于通過 CNN 將 RGB 圖像生成固定大小的表示，語言部分使用 LSTM 編碼，導(dǎo)航部分引入包含選擇動(dòng)作(前進(jìn)，左轉(zhuǎn)，右轉(zhuǎn))的規(guī)劃模塊和指定執(zhí)行次數(shù)(1， 2…)的控制模塊的自適應(yīng)倍率計(jì)算方法，問答部分計(jì)算智能體軌跡最后五幀的圖像-問題相似性的視覺編碼與問題的 LSTM 編碼進(jìn)行比較并輸出結(jié)果。

在上述研究的基礎(chǔ)上，受人類將行為概念化為一系列更高層次語義目標(biāo)(比如為了吃夜宵，人類會(huì)將其抽象為“離開臥室—走到廚房—打開冰箱—找到甜點(diǎn)”而不會(huì)詳盡地規(guī)劃路線)的啟發(fā)，Das 等人進(jìn)一步提出了模塊化學(xué)習(xí)策略，將學(xué)習(xí)目標(biāo)加以分解。

Yu L 等人則把 EQA 任務(wù)擴(kuò)展為 MT-EQA(multi-target EQA) 即在問題形式中引入了多目標(biāo)，比如類似“臥室里的梳妝臺(tái)比廚房里的烤箱更大么”這樣的問題。

Wijmans E 等人設(shè)計(jì)了基于三維點(diǎn)云格式的具身問答數(shù)據(jù)集 MP3D-EQA，設(shè)計(jì)并測(cè)試了多達(dá) 16 種不同的導(dǎo)航策略組合，提出損失加權(quán)方案 Inflection Weighting 以提高行為模仿的有效性。

相關(guān)數(shù)據(jù)集介紹

視覺語言導(dǎo)航任務(wù)主要包含 3 個(gè)數(shù)據(jù)集，其一是 Qi Wu等人在提出視覺語言導(dǎo)航任務(wù)時(shí)開源的 R2R(room-to-room) 數(shù)據(jù)集，其二是 Jain V 等人在改進(jìn)任務(wù)評(píng)價(jià)方法時(shí)開源的R4R(room-for-room) 數(shù)據(jù)集，其三是 Qi Wu 等人提出RERERE 任務(wù)時(shí)建立的數(shù)據(jù)集(暫未開源)。表 1 是三個(gè)數(shù)據(jù)集的簡(jiǎn)單對(duì)比，從對(duì)比中可以發(fā)現(xiàn)，因?yàn)?R4R 數(shù)據(jù)集更傾向于使得智能體運(yùn)動(dòng)軌跡更加符合導(dǎo)航指令而非最短距離，因此參考路徑的長(zhǎng)度要大于最短路徑的長(zhǎng)度；而 RERERE 任務(wù)則傾向于使用更加簡(jiǎn)潔的指令，因此指令平均長(zhǎng)度要小于R2R。

具身問答任務(wù)數(shù)據(jù)集主要包括 3 個(gè)數(shù)據(jù)集，其一是 Das等人開源的 EQA(embodied question answering) v1 數(shù)據(jù)集，其二是 Yu L 等人引入多目標(biāo)任務(wù)時(shí)提出的 MT-EQA(multitarget EQA) 數(shù)據(jù)集，其三是 Wijmans E 等人將任務(wù)中的數(shù)據(jù)類型替換為點(diǎn)云時(shí)提出的數(shù)據(jù)集 MP3D-EQA 數(shù)據(jù)集，后兩個(gè)數(shù)據(jù)集暫時(shí)未開源。表 2 是三個(gè)數(shù)據(jù)集的內(nèi)容對(duì)比。需要注意的是，數(shù)據(jù)集中包含被稱為 unique question 的問題，是指可能產(chǎn)生歧義的問題，比如房間中同時(shí)存在兩臺(tái)冰箱時(shí)，問題 ‘What room is the air conditioner located in?’ 就會(huì)產(chǎn)生歧義。

計(jì)算機(jī)視覺與自然語言處理融合未來方向展望

真實(shí)環(huán)境遷移與泛化能力

視覺與自然語言結(jié)合的任務(wù)取得了令人矚目的進(jìn)展，從早期簡(jiǎn)單將兩部分技術(shù)簡(jiǎn)單串聯(lián)加和的形式擴(kuò)展到需要智能體借助視覺和語言理解環(huán)境并且采取行動(dòng)的深度融合，但是絕大部分任務(wù)都是基于現(xiàn)有的數(shù)據(jù)集在模擬的環(huán)境中進(jìn)行。誠(chéng)然，考慮到目前表現(xiàn)較好的算法均是基于需要大量試錯(cuò)的深度強(qiáng)化學(xué)習(xí)方法，在真實(shí)環(huán)境中訓(xùn)練的確會(huì)消耗大量的時(shí)間與精力，但是在模擬環(huán)境表現(xiàn)完美的模型遷移到真實(shí)環(huán)境中也可能會(huì)遇到很多意料之外的問題。

而現(xiàn)有的絕大部分研究只是在數(shù)據(jù)集上達(dá)到了較高的精度(比如視覺語言導(dǎo)航任務(wù)中 SOTA 算法在可見驗(yàn)證集和不可見驗(yàn)證集上分別達(dá)到了73.0%和 61.3%的成功率)，僅有少數(shù)學(xué)者將算法在實(shí)際環(huán)境中加以驗(yàn)證。因此未來研究重要方向之一是如何將模型遷移到真實(shí)環(huán)境中。在此過程中，泛化能力又是其中關(guān)鍵，即智能體若遇到訓(xùn)練集中未出現(xiàn)的環(huán)境或者未遇到的物體，能否根據(jù)過往經(jīng)驗(yàn)作出較為合理的反應(yīng)，可能的解決方案是借鑒已經(jīng)在視覺對(duì)話、常識(shí)推理和事實(shí)預(yù)測(cè)等方向得到廣泛使用和驗(yàn)證的外部知識(shí)庫方法，即利用事實(shí)性或常識(shí)性的先驗(yàn)知識(shí)提高智能體對(duì)于環(huán)境的理解和認(rèn)知能力。

與環(huán)境更強(qiáng)大的交互能力

目前已經(jīng)開源的數(shù)據(jù)集中，智能體與環(huán)境之間的交互相對(duì)有限，僅涉及打開微波爐、移動(dòng)物體或到達(dá)指定位置等基本操作，并且可采取的運(yùn)動(dòng)形式限制在特定范圍(比如前進(jìn)、左轉(zhuǎn)和右轉(zhuǎn))，雖然在最新的研究中已經(jīng)涉及類似“把放在凳子旁邊的枕頭拿給我”這類相對(duì)較為復(fù)雜的交互形式，但是顯然與真實(shí)環(huán)境的交互方式和運(yùn)動(dòng)形式有較大的差距，并且簡(jiǎn)化了真實(shí)環(huán)境中的諸多物理性限制，比如“去廚房拿一個(gè)雞蛋”和“去廚房拿一把勺子”語言指示，在真實(shí)的環(huán)境中智能體需要考慮分別以何種的力度夾取雞蛋和勺子，而現(xiàn)有的數(shù)據(jù)集并不考慮此類區(qū)別。

另一個(gè)比較有前景的方向是與物聯(lián)網(wǎng)的深度結(jié)合，電視、空調(diào)和冰箱等對(duì)于人類而言需要后天習(xí)得交互方式的電器，卻因其規(guī)則明確和易于聯(lián)網(wǎng)的性質(zhì)能夠與智能體直接交互。最后就是對(duì)環(huán)境中其他信息的利用，比如利用聲音信息對(duì)不可見物體的非視距重建、使用工具達(dá)成指定目標(biāo)甚至與環(huán)境中其他智能體的對(duì)話交流等。這些與環(huán)境的相對(duì)復(fù)雜的交互是目前研究所欠缺的，但也是未來智能體在真實(shí)環(huán)境中運(yùn)行所需要的。

推理能力的引入

目前無論是視覺語言導(dǎo)航還是具身問答，所給的任務(wù)都相對(duì)直接(比如根據(jù)語言提示到達(dá)某個(gè)房間或者回答環(huán)境中某物體是什么顏色等)，但是現(xiàn)實(shí)生活中更多是是需要推理能力的問題，比如類似視覺推理任務(wù)中的比較、屬性識(shí)別和邏輯運(yùn)算等初級(jí)推理能力，以及演繹、歸納和類比等高級(jí)推理能力。雖然在部分研究中已經(jīng)涉及推理能力，但仍相對(duì)簡(jiǎn)單，未來可能會(huì)引入類似“房間裝修是什么風(fēng)格？”或者“到書房中取一本散文集?！?br />
這種涉及相對(duì)高級(jí)推理能力的任務(wù)，前者需要智能體基于房間的整體特征比如吊燈的樣式、桌椅的擺放和墻紙的花飾等信息歸納推理得出裝修風(fēng)格的答案，后者則需要智能體能夠區(qū)分散文、小說或詩歌等不同的文體。當(dāng)然目前視覺和自然語言方面的進(jìn)展距離解決此類問題仍有較大空間，但是推理能力尤其是高級(jí)推理能力的研究不失為一個(gè)值得關(guān)注的研究方向。

三維數(shù)據(jù)的使用

三維點(diǎn)云數(shù)據(jù)可以提供比圖像更豐富和準(zhǔn)確的信息，Wijmans E 等人發(fā)現(xiàn)在具身問答任務(wù)中點(diǎn)云信息可以提升智能體避障能力的學(xué)習(xí)，Wang Y 等人甚至發(fā)現(xiàn)僅僅將二維的雙目視覺圖像轉(zhuǎn)換為三維點(diǎn)云數(shù)據(jù)就能大幅提高目標(biāo)檢測(cè)的準(zhǔn)確度，因此點(diǎn)云數(shù)據(jù)可能不單在信息內(nèi)容方面甚至是在數(shù)據(jù)表示方面均提供了更多的信息。但是一方面受制于點(diǎn)云數(shù)據(jù)獲取的成本和難度，成本百元的相機(jī)模組在短短幾秒鐘內(nèi)便可獲取千萬像素級(jí)別的高精度圖像，但是點(diǎn)云獲取設(shè)備往往動(dòng)輒數(shù)十萬獲取時(shí)間也往往需要數(shù)分鐘甚至數(shù)小時(shí)。

另一方面基于點(diǎn)云的深度學(xué)習(xí)研究相對(duì)滯后于圖像，雖然得益于 Point Net++、ASCN、和 SplatNet等方法的提出，點(diǎn)云數(shù)據(jù)固有的無序性和旋轉(zhuǎn)性不再是應(yīng)用深度學(xué)習(xí)技術(shù)的障礙，但是學(xué)術(shù)界對(duì)于點(diǎn)云數(shù)據(jù)的研究仍遠(yuǎn)遠(yuǎn)少于圖像數(shù)據(jù)。因此不論是點(diǎn)云數(shù)據(jù)集的構(gòu)建還是基于點(diǎn)云數(shù)據(jù)的研究均不同程度的存在一些困難。后續(xù)的研究可能需要更多的引入點(diǎn)云格式的環(huán)境信息，為了彌補(bǔ)目前點(diǎn)云數(shù)據(jù)獲取困難的狀況，基于雙目視覺的三維重建可能是很有希望的輔助手段之一。

學(xué)習(xí)目標(biāo)的優(yōu)化

建構(gòu)主義者認(rèn)為，學(xué)習(xí)是學(xué)習(xí)者在與環(huán)境交互作用的過程中主動(dòng)地建構(gòu)內(nèi)部心理表征的過程。而本文現(xiàn)在已經(jīng)擁有了多個(gè)可交互的模擬環(huán)境，因此后續(xù)的研究可以在不斷地交互進(jìn)行比如對(duì)自然語言的理解或者對(duì)環(huán)境中工具的使用等能力的學(xué)習(xí)和提升。此外從表 1 的分類中可以看出，視覺語言導(dǎo)航、具身問答以及交互式問答等在語言層面仍停留于“問答”階段，即針對(duì)單一問題給出正確的答案，未來的研究中很有可能將目標(biāo)優(yōu)化到“對(duì)話”層面，即針對(duì)多個(gè)有內(nèi)在邏輯聯(lián)系的問題分別給出正確答案，同時(shí)問題之間的內(nèi)在聯(lián)系也有助于智能體更好地理解環(huán)境。

注：本文旨在學(xué)習(xí)和分享，如內(nèi)容上有不到之處，歡迎批評(píng)指正

參考文獻(xiàn)：

[1]李睿,鄭順義,王西旗.視覺—語言—行為:視覺語言融合研究綜述[J/OL].計(jì)算機(jī)應(yīng)用研究:1-8[2020-09-06].https://doi.org/10.19734/j.issn.1001-3695.2019.09.0512.

責(zé)任編輯：xj

原文標(biāo)題：一文了解計(jì)算機(jī)視覺與自然語言處理融合的研究進(jìn)展

文章出處：【微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

計(jì)算機(jī)視覺

計(jì)算機(jī)視覺

+關(guān)注

關(guān)注
9

文章
1715

瀏覽量
47625
自然語言

自然語言

+關(guān)注

關(guān)注
1

文章
292

瀏覽量
13987

原文標(biāo)題：一文了解計(jì)算機(jī)視覺與自然語言處理融合的研究進(jìn)展

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

深度學(xué)習(xí)自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁

Hot 一個(gè)給NLP領(lǐng)域帶來革新的預(yù)訓(xùn)練語言大模型Bert
Hot 推薦一些翻譯英文文獻(xiàn)比較準(zhǔn)確的軟件

New 高效大模型的推理綜述
New 什么是RAG，RAG學(xué)習(xí)和實(shí)踐經(jīng)驗(yàn)

精選推薦
更多

文章

資料

帖子

技術(shù)資訊 I 剛?cè)峤Y(jié)合印刷電路板設(shè)計(jì)

深圳(耀創(chuàng))電子科技有限公司
1小時(shí)前

82 閱讀

閃迪開源SPRandom：160小時(shí)變6.2小時(shí)，企業(yè)SSD測(cè)試迎革命性提速

章鷹觀察
1小時(shí)前

267 閱讀

開關(guān)電源限流保護(hù)電路的原理分析

電源聯(lián)盟
2小時(shí)前

207 閱讀

炮火，AI，全球飄零：逆潮中的伊朗開發(fā)者

腦極體
4小時(shí)前

511 閱讀

高壓放大器ATA-7025在量子點(diǎn)薄膜的非接觸無損原位檢測(cè)中的應(yīng)用

Aigtek安泰電子
1天前

692 閱讀

如何制造可靠的電源產(chǎn)品

青樓滿座
1.03 MB

免費(fèi)

0下載

用示波器修彩電的步驟及方法

nana
256 MB

免費(fèi)

1503下載

dotjs Google Chrome擴(kuò)展

發(fā)生的方式
0.10 MB

2積分

1下載

ReactiveObjCBridge連接Swift和objective-C API

申換換
0.03 MB

免費(fèi)

0下載

帶有聲光效果的萬圣節(jié)南瓜

golabs
0.08 MB

免費(fèi)

0下載

【飛凌嵌入式RV1126B開發(fā)板】+基本功能測(cè)試篇（1）

jennyzhaojie
1天前

323 閱讀

【飛凌嵌入式RV1126B開發(fā)板】+初識(shí)篇

jennyzhaojie
2天前

350 閱讀

樹莓派5還是香橙派5 Pro？?jī)煽顭衢T開發(fā)板的詳細(xì)對(duì)比

行走的小派
2天前

702 閱讀

OrangePi RV2 深度技術(shù)評(píng)測(cè)：RISC-V AI融合架構(gòu)的先行者

行走的小派
3天前

1042 閱讀

lab view NI6003搭建電路

jf_73763743
3天前

1040 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

電子發(fā)燒友

My ElecFans

APP
網(wǎng)站地圖

設(shè)計(jì)技術(shù)

可編程邏輯

電源/新能源

MEMS/傳感技術(shù)

測(cè)量?jī)x表

嵌入式技術(shù)

制造/封裝

模擬技術(shù)

RF/無線

接口/總線/驅(qū)動(dòng)

處理器/DSP

EDA/IC設(shè)計(jì)

存儲(chǔ)技術(shù)

光電顯示

EMC/EMI設(shè)計(jì)

連接器

行業(yè)應(yīng)用

LEDs

汽車電子

音視頻及家電

通信網(wǎng)絡(luò)

醫(yī)療電子

人工智能

虛擬現(xiàn)實(shí)

可穿戴設(shè)備

機(jī)器人

安全設(shè)備/系統(tǒng)

軍用/航空電子

移動(dòng)通信

工業(yè)控制

便攜設(shè)備

觸控感測(cè)

物聯(lián)網(wǎng)

智能電網(wǎng)

區(qū)塊鏈

新科技

特色內(nèi)容

專欄推薦

學(xué)院

設(shè)計(jì)資源

設(shè)計(jì)技術(shù)

電子百科

電子視頻

元器件知識(shí)

工具箱

VIP會(huì)員

最新技術(shù)文章

產(chǎn)品地圖

品牌地圖

社區(qū)

小組

論壇

問答

評(píng)測(cè)試用

企業(yè)服務(wù)

產(chǎn)品

資料

文章

方案

企業(yè)

供應(yīng)鏈服務(wù)

硬件開發(fā)

媒體服務(wù)

網(wǎng)站廣告

在線研討會(huì)

活動(dòng)策劃

新聞發(fā)布

新品發(fā)布

小測(cè)驗(yàn)

設(shè)計(jì)大賽

電子發(fā)燒友

關(guān)于我們

聯(lián)系我們

舉報(bào)投訴

社交網(wǎng)絡(luò)

微博

移動(dòng)端

發(fā)燒友APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內(nèi)容合作

張迎輝：mikezhang@elecfans.com

關(guān)注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀察

版權(quán)所有 ? 長(zhǎng)沙勒克斯教育咨詢有限公司

湖南省長(zhǎng)沙市開福區(qū)月湖街道匍園路20號(hào)聚恒科技園1棟2301-1房
電子發(fā)燒友 （電路圖） 湘公網(wǎng)安備43011202000918 工商網(wǎng)監(jiān) 湘ICP備2023036445號(hào)-105-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级