黄色视频手机免费在线播放,中文字幕第20页,a级免费毛片中国a级片

視覺(jué)語(yǔ)言（Vision-Language，VL）系統(tǒng)允許為文本查詢搜索相關(guān)圖像（或反之），并使用自然語(yǔ)言描述圖像的內(nèi)容。一般來(lái)說(shuō)，一個(gè)VL系統(tǒng)使用一個(gè)圖像編碼模塊和一個(gè)視覺(jué)語(yǔ)言融合模塊。微軟研究部門最近開(kāi)發(fā)了一種新的圖像編碼對(duì)象屬性檢測(cè)模型，稱為VinVL（Visual features in Vision-Language），有著顯著超越人類的表現(xiàn)。

當(dāng)VinVL與OSCAR和vivo等VL融合模塊結(jié)合后，微軟新的VL系統(tǒng)能夠在競(jìng)爭(zhēng)最激烈的VL排行榜上取得第一，包括視覺(jué)問(wèn)題回答（VQA）、微軟COCO圖像字幕和新穎對(duì)象字幕（nocaps）。微軟研究團(tuán)隊(duì)還強(qiáng)調(diào)，在nocaps排行榜上，這種新的VL系統(tǒng)在CIDEr（92.5對(duì)85.3）方面的表現(xiàn)明顯超過(guò)了人類的同形式表現(xiàn)。

微軟解釋道：

VinVL在改善VL理解的圖像編碼方面表現(xiàn)出了巨大的潛力。我們新開(kāi)發(fā)的圖像編碼模型可以使廣泛的VL任務(wù)受益，正如本文中的例子所說(shuō)明的那樣。盡管我們獲得了很有希望的結(jié)果，比如在圖像字幕基準(zhǔn)上超越了人類的表現(xiàn)，但我們的模型絕不是達(dá)到VL理解的人類水平的智能。未來(lái)有趣的工作方向包括（1）利用海量圖像分類/標(biāo)記數(shù)據(jù)，進(jìn)一步擴(kuò)大對(duì)象屬性檢測(cè)預(yù)訓(xùn)練的規(guī)模；（2）將跨模態(tài)VL表征學(xué)習(xí)的方法擴(kuò)展到構(gòu)建感知基礎(chǔ)的語(yǔ)言模型，可以像人類一樣將視覺(jué)概念建立在自然語(yǔ)言中，反之亦然。

微軟VinVL正在被整合到Azure認(rèn)知服務(wù)中，Azure認(rèn)知服務(wù)為微軟的各種服務(wù)提供支撐，如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團(tuán)隊(duì)還將向公眾發(fā)布VinVL模型和源代碼。
責(zé)編AJX

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴