91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟視覺(jué)語(yǔ)言模型有顯著超越人類的表現(xiàn)

如意 ? 來(lái)源:cnBeta.COM ? 作者:cnBeta.COM ? 2021-01-19 14:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

視覺(jué)語(yǔ)言(Vision-Language,VL)系統(tǒng)允許為文本查詢搜索相關(guān)圖像(或反之),并使用自然語(yǔ)言描述圖像的內(nèi)容。一般來(lái)說(shuō),一個(gè)VL系統(tǒng)使用一個(gè)圖像編碼模塊和一個(gè)視覺(jué)語(yǔ)言融合模塊。微軟研究部門最近開(kāi)發(fā)了一種新的圖像編碼對(duì)象屬性檢測(cè)模型,稱為VinVL(Visual features in Vision-Language),有著顯著超越人類的表現(xiàn)。

當(dāng)VinVL與OSCAR和vivo等VL融合模塊結(jié)合后,微軟新的VL系統(tǒng)能夠在競(jìng)爭(zhēng)最激烈的VL排行榜上取得第一,包括視覺(jué)問(wèn)題回答(VQA)、微軟COCO圖像字幕和新穎對(duì)象字幕(nocaps)。微軟研究團(tuán)隊(duì)還強(qiáng)調(diào),在nocaps排行榜上,這種新的VL系統(tǒng)在CIDEr(92.5對(duì)85.3)方面的表現(xiàn)明顯超過(guò)了人類的同形式表現(xiàn)。

微軟解釋道:

VinVL在改善VL理解的圖像編碼方面表現(xiàn)出了巨大的潛力。我們新開(kāi)發(fā)的圖像編碼模型可以使廣泛的VL任務(wù)受益,正如本文中的例子所說(shuō)明的那樣。盡管我們獲得了很有希望的結(jié)果,比如在圖像字幕基準(zhǔn)上超越了人類的表現(xiàn),但我們的模型絕不是達(dá)到VL理解的人類水平的智能。未來(lái)有趣的工作方向包括 (1)利用海量圖像分類/標(biāo)記數(shù)據(jù),進(jìn)一步擴(kuò)大對(duì)象屬性檢測(cè)預(yù)訓(xùn)練的規(guī)模;(2)將跨模態(tài)VL表征學(xué)習(xí)的方法擴(kuò)展到構(gòu)建感知基礎(chǔ)的語(yǔ)言模型,可以像人類一樣將視覺(jué)概念建立在自然語(yǔ)言中,反之亦然。

微軟VinVL正在被整合到Azure認(rèn)知服務(wù)中,Azure認(rèn)知服務(wù)為微軟的各種服務(wù)提供支撐,如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團(tuán)隊(duì)還將向公眾發(fā)布VinVL模型和源代碼。
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6741

    瀏覽量

    107850
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42326
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3751

    瀏覽量

    52099
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是大模型,智能體...?大模型100問(wèn),快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語(yǔ)言。大語(yǔ)言模型通過(guò)“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁(yè)、文章等)進(jìn)行預(yù)訓(xùn)練,學(xué)會(huì)
    的頭像 發(fā)表于 02-02 16:36 ?890次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問(wèn),快速全面了解!

    “明牌”對(duì)局,自變量開(kāi)源模型超越pi0

    “明牌”對(duì)局,自變量開(kāi)源模型超越pi0
    的頭像 發(fā)表于 01-10 12:00 ?5585次閱讀
    “明牌”對(duì)局,自變量開(kāi)源<b class='flag-5'>模型</b><b class='flag-5'>超越</b>pi0

    VLA與世界模型什么不同?

    Language Action,VLA),另一些則致力于構(gòu)建并應(yīng)用世界模型(World Model)。這兩種路徑什么不同? 什么是VLA,什么是世界模型 先說(shuō)說(shuō)VLA。VLA是英文Vision-Language-Action
    的頭像 發(fā)表于 12-17 09:13 ?612次閱讀
    VLA與世界<b class='flag-5'>模型</b><b class='flag-5'>有</b>什么不同?

    模型中常提的快慢思考會(huì)對(duì)自動(dòng)駕駛產(chǎn)生什么影響?

    提出的“快慢系統(tǒng)”理論啟發(fā),旨在讓自動(dòng)駕駛系統(tǒng)模擬人類的思考與決策過(guò)程。理想汽車結(jié)合端到端與VLM模型,推出了業(yè)界首個(gè)在車端部署的雙系統(tǒng)方案,并成功將VLM視覺(jué)語(yǔ)言
    的頭像 發(fā)表于 11-22 10:59 ?2499次閱讀
    大<b class='flag-5'>模型</b>中常提的快慢思考會(huì)對(duì)自動(dòng)駕駛產(chǎn)生什么影響?

    VLA和世界模型,誰(shuí)才是自動(dòng)駕駛的最優(yōu)解?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)發(fā)展,其實(shí)現(xiàn)路徑也呈現(xiàn)出兩種趨勢(shì),一邊是以理想、小鵬、小米為代表的VLA(視覺(jué)語(yǔ)言—行動(dòng))模型路線;另一邊則是以華為、蔚來(lái)為主導(dǎo)的世界模型
    的頭像 發(fā)表于 11-05 08:55 ?781次閱讀
    VLA和世界<b class='flag-5'>模型</b>,誰(shuí)才是自動(dòng)駕駛的最優(yōu)解?

    iTOF技術(shù),多樣化的3D視覺(jué)應(yīng)用

    視覺(jué)傳感器對(duì)于機(jī)器信息獲取至關(guān)重要,正在從二維(2D)發(fā)展到三維(3D),在某些方面模仿并超越人類視覺(jué)能力,從而推動(dòng)創(chuàng)新應(yīng)用。3D 視覺(jué)
    發(fā)表于 09-05 07:24

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    /AR頭顯和3D視覺(jué)技術(shù)的顯著進(jìn)步,當(dāng)前只需極低成本即可采集大量帶有精確人手關(guān)節(jié)標(biāo)注的第一人稱人類操作視頻。
    的頭像 發(fā)表于 08-21 09:56 ?1096次閱讀
    基于大規(guī)模<b class='flag-5'>人類</b>操作數(shù)據(jù)預(yù)訓(xùn)練的VLA<b class='flag-5'>模型</b>H-RDT

    【HZ-T536開(kāi)發(fā)板免費(fèi)體驗(yàn)】3 - Cangjie Magic調(diào)用視覺(jué)語(yǔ)言模型(VLM)真香,是不是可以沒(méi)有YOLO和OCR了?

    和管理 Agent 的專用語(yǔ)言。它允許開(kāi)發(fā)人員通過(guò)結(jié)構(gòu)化的系統(tǒng)提示詞、工具和各類協(xié)作策略來(lái)增強(qiáng) Agent 的功能。 今天我們就嘗試在開(kāi)發(fā)板上利用質(zhì)譜AI的視覺(jué)語(yǔ)言模型(VLM)
    發(fā)表于 08-01 22:15

    【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】3、開(kāi)源大語(yǔ)言模型部署

    的系統(tǒng)和芯片架構(gòu)。 3、拉取/運(yùn)行大語(yǔ)言模型 ollama的使用方法和docker很像。 返回到ollama的編譯路徑,找到ollama可執(zhí)行文件 執(zhí)行 ./ollama run qwen3:0.6b
    發(fā)表于 07-19 15:45

    【教程】使用NS1串口服務(wù)器對(duì)接智普清言免費(fèi)AI大語(yǔ)言模型

    許多功能,本文將介紹如何使用NS1模塊的HTTP功能對(duì)接智普清言免費(fèi)大語(yǔ)言模型(glm-4-flash-250414)的API。NS1的功能框架如下:NS1的H
    的頭像 發(fā)表于 06-12 19:33 ?791次閱讀
    【教程】使用NS1串口服務(wù)器對(duì)接智普清言免費(fèi)AI大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    使用瑞薩MPU芯片RZ/V2H部署DeepSeek-R1模型

    DeepSeek大語(yǔ)言模型(LLM)可用于理解人類語(yǔ)言的交互方式,思考,并給出合適的回應(yīng)。
    的頭像 發(fā)表于 05-15 14:40 ?1008次閱讀
    使用瑞薩MPU芯片RZ/V2H部署DeepSeek-R1<b class='flag-5'>模型</b>

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語(yǔ)言模型

    在當(dāng)今人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)的開(kāi)發(fā)已經(jīng)成為一個(gè)熱門話題。這些模型通過(guò)學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語(yǔ)言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問(wèn)答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1301次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) LLM<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多模態(tài)理解模型

    多模態(tài)理解模型是讓AI像人類一樣,通過(guò)整合多維度信息(如視覺(jué)、語(yǔ)言、聽(tīng)覺(jué)等),理解數(shù)據(jù)背后的語(yǔ)義、情感、邏輯或場(chǎng)景,從而完成推理、決策等任務(wù)。
    的頭像 發(fā)表于 04-18 09:30 ?3015次閱讀
    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多模態(tài)理解<b class='flag-5'>模型</b>

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能
    的頭像 發(fā)表于 03-17 15:32 ?8823次閱讀
    ?VLM(<b class='flag-5'>視覺(jué)</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    ??低暟l(fā)布視覺(jué)模型周界攝像機(jī)

    上周,我們發(fā)布了視覺(jué)模型系列攝像機(jī),其中有大模型加持的周界系列攝像機(jī),誤報(bào)率下降90%以上。
    的頭像 發(fā)表于 03-11 18:12 ?1802次閱讀