91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Meta開源ImageBind新模型,超越GPT-4,對齊文本、音頻等6種模態(tài)!

AI科技大本營 ? 來源:CSDN ? 2023-05-12 15:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

據(jù)外媒報道,上周四,Google、微軟、OpenAI 幾家公司的 CEO 受邀去白宮,共論關(guān)于人工智能發(fā)展的一些重要問題。然而,讓人有些想不通的是,深耕 AI 多年的 Meta 公司(前身為 Facebook)卻沒有在受邀之列。

沒多久,更讓 Meta CEO 扎克伯格扎心的是,一位官員對此解釋稱,本次會議“側(cè)重的是目前在 AI 領(lǐng)域,尤其是面向消費者的產(chǎn)品方面,處于領(lǐng)先地位的公司?!?/p>

顯然對于這樣的解釋,并不能讓人信服,畢竟這一次受邀名單中還有一家由 OpenAI 的前成員創(chuàng)立的美國人工智能初創(chuàng)和公益公司 Anthropic。

似乎是為了出一口“氣”,也為證明自家的實力,相比 OpenAI、Google 推出閉源的 GPT-4、Bard 模型,Meta 在開源大模型的路上一騎絕塵,繼兩個月前開源 LLaMA大模型之后,再次于5 月 9 日開源了一個新的 AI 模型——ImageBind(https://github.com/facebookresearch/ImageBind),短短一天時間,收獲了 1.6k 個 Star。

這個模型與眾不同之處便是可以將多個數(shù)據(jù)流連接在一起,包括文本、圖像/視頻和音頻、視覺、IMU、熱數(shù)據(jù)和深度(Depth)數(shù)據(jù)。這也是業(yè)界第一個能夠整合六種類型數(shù)據(jù)的模型。

4e2e0200-ef4d-11ed-90ce-dac502259ad0.gif

4f842c2e-ef4d-11ed-90ce-dac502259ad0.png

ImageBind 用圖像對齊六模態(tài),旨在實現(xiàn)感官大一統(tǒng)

簡單來看,相比 Midjourney、Stable Diffusion 和 DALL-E 2 這樣將文字與圖像配對的圖像生成器,ImageBind 更像是廣撒網(wǎng),可以連接文本、圖像/視頻、音頻、3D 測量(深度)、溫度數(shù)據(jù)(熱)和運動數(shù)據(jù)(來自 IMU),而且它無需先針對每一種可能性進行訓練,直接預測數(shù)據(jù)之間的聯(lián)系,類似于人類感知或者想象環(huán)境的方式。

4f9daeb0-ef4d-11ed-90ce-dac502259ad0.png

對此,Meta 在其官方博客中也說道,“ImageBind 可以勝過之前為一種特定模式單獨訓練的技術(shù)模型。但最重要的是,它能使機器更好地一起分析許多不同形式的信息,從而有助于推進人工智能?!?/p>

打個比喻,人類可以聽或者閱讀一些關(guān)于描述某個動物的文本,然后在現(xiàn)實生活中看到就能認識。

你站在繁忙的城市街道等有刺激性環(huán)境中,你的大腦會(很大程度上應(yīng)該是無意識地)吸收景象、聲音和其他感官體驗,以此推斷有關(guān)來往的汽車、行人、高樓、天氣等信息。

在很多場景中,一個單一的聯(lián)合嵌入空間包含許多不同種類的數(shù)據(jù),如聲音、圖像、視頻等等。

如今,基于 ImageBind 這樣的模型可以讓機器學習更接近人類學習。

在官方博客中,Meta 分享 ImageBind 是通過圖像的綁定屬性,只要將每個模態(tài)的嵌入與圖像嵌入對齊,即圖像與各種模式共存,可以作為連接這些模式的橋梁,例如利用網(wǎng)絡(luò)數(shù)據(jù)將文本與圖像連接起來,或者利用從帶有 IMU 傳感器的可穿戴相機中捕獲的視頻數(shù)據(jù)將運動與視頻連接起來。

4fea7c68-ef4d-11ed-90ce-dac502259ad0.png

ImageBind 整體概覽

從大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)中學到的視覺表征可以作為目標來學習不同模態(tài)的特征。這使得 ImageBind 能夠?qū)R與圖像共同出現(xiàn)的任何模式,自然地將這些模式相互對齊。與圖像有強烈關(guān)聯(lián)的模態(tài),如熱學和深度,更容易對齊。非視覺的模態(tài),如音頻和 IMU,具有較弱的關(guān)聯(lián)性。

ImageBind 顯示,圖像配對數(shù)據(jù)足以將這六種模式綁定在一起。該模型可以更全面地解釋內(nèi)容,使不同的模式可以相互 "對話",并在不觀察它們的情況下找到聯(lián)系。

例如,ImageBind 可以在沒有看到它們在一起的情況下將音頻和文本聯(lián)系起來。這使得其他模型能夠 "理解 "新的模式,而不需要任何資源密集型的訓練。

500ec8ac-ef4d-11ed-90ce-dac502259ad0.png

不過,該模型目前只是一個研究項目,沒有直接的消費者和實際應(yīng)用,但是它展現(xiàn)了生成式 AI 在未來能夠生成沉浸式、多感官內(nèi)容的方式,也表明了 Meta 正在以與 OpenAI、Google 等競爭對手不同的方式,趟出一條屬于開源大模型的路。

50381c20-ef4d-11ed-90ce-dac502259ad0.png

ImageBind 強大的背后

與此同時,作為一種多模態(tài)的模型,ImageBind 還加入了 Meta近期開源的一系列 AI 工具,包括DINOv2計算機視覺模型,這是一種不需要微調(diào)訓練高性能計算機視覺模型的新方法;以及 Segment Anything(SAM),這是一種通用分割模型,可以根據(jù)任何用戶的提示,對任何圖像中的任何物體進行分割。

ImageBind 是對這些模型的補充,因為它專注于多模態(tài)表示學習。它試圖為多種模式學習提供一個統(tǒng)一的特征空間,包括但不限于圖像和視頻。在未來, ImageBind 可以利用 DINOv2 的強大視覺特征來進一步提高其能力。

505233da-ef4d-11ed-90ce-dac502259ad0.png

ImageBind 的性能

針對 ImageBind 性能,Meta 研究科學家還發(fā)布了一篇《IMAGEBIND: One Embedding Space To Bind Them All》(https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf)論文,分享了技術(shù)細則。

506a7652-ef4d-11ed-90ce-dac502259ad0.png

通過分析表明,ImageBind 模型的性能實際上可以通過使用很少的訓練實例來提高。這個模型有新的出現(xiàn)的能力,或者說是擴展行為--也就是說,在較小的模型中不存在的能力,但在較大的版本中出現(xiàn)。這可能包括識別哪種音頻適合某張圖片或從照片中預測場景的深度。

而 ImageBind 的縮放行為隨著圖像編碼器的強度而提高。

換句話說,ImageBind 對準各種模式的能力隨著視覺模型的強度和大小而增加。這表明,較大的視覺模型有利于非視覺任務(wù),如音頻分類,而且訓練這種模型的好處超出了計算機視覺任務(wù)。

在實驗中,研究人員使用了 ImageBind 的音頻和深度編碼器,并將其與之前在 zero-shot 檢索以及音頻和深度分類任務(wù)中的工作進行了比較。

結(jié)果顯示,ImageBind 可以用于少量樣本的音頻和深度分類任務(wù),并且優(yōu)于之前定制的方法。

5074f2bc-ef4d-11ed-90ce-dac502259ad0.png

最終,Meta 認為ImageBind 這項技術(shù)最終會超越目前的六種“感官”,其在博客上說道,“雖然我們在當前的研究中探索了六種模式,但我們相信引入連接盡可能多的感官的新模式——如觸覺、語音、嗅覺和大腦 fMRI 信號——將使更豐富的以人為中心的人工智能模型成為可能。”

508760d2-ef4d-11ed-90ce-dac502259ad0.png

ImageBind 可以用來干什么?

如果說 ChatGPT 可以充當搜索引擎、問答社區(qū),Midjourney 可以被用來當畫畫工具,那么用 ImageBind 可以做什么?

根據(jù)官方發(fā)布的 Demo 顯示,它可以直接用圖片生成音頻:

509ba04c-ef4d-11ed-90ce-dac502259ad0.png

也可以音頻生成圖片:

51069f46-ef4d-11ed-90ce-dac502259ad0.png

亦或者直接給一個文本,就可以檢索相關(guān)的圖片或者音頻內(nèi)容:

5112d252-ef4d-11ed-90ce-dac502259ad0.png

當然,基于 ImageBind 也可以給出一個音頻+一張圖,如“狗叫聲”+海景圖:

517f3b36-ef4d-11ed-90ce-dac502259ad0.png

可以直接得到一張“狗在看?!钡膱D:

51ac6ec6-ef4d-11ed-90ce-dac502259ad0.png

也可以給出音頻,生成相應(yīng)的圖像:

51cfd636-ef4d-11ed-90ce-dac502259ad0.png

正如上文所述, ImageBind 給出了未來生成式 AI 系統(tǒng)可以以多模態(tài)呈現(xiàn)的方式,同時,結(jié)合 Meta 內(nèi)部的虛擬現(xiàn)實、混合現(xiàn)實和元宇宙等技術(shù)和場景結(jié)合。

可以想象一下未來的頭顯設(shè)備,它不僅可以生成音頻和視頻輸入,也可以生成物理舞臺上的環(huán)境和運動,即可以動態(tài)構(gòu)建 3D 場景(包括聲音、運動等)。

亦或者,虛擬游戲開發(fā)人員也許最終可以使用它來減少設(shè)計過程中的大量跑腿工作。

同樣,內(nèi)容創(chuàng)作者可以僅基于文本、圖像或音頻輸入制作具有逼真的音頻和動作的沉浸式視頻。

也很容易想象,用 ImageBind 這樣的工具會在無障礙空間打開新的大門,譬如,生成實時多媒體描述來幫助有視力或聽力障礙的人更好地感知他們的直接環(huán)境。

“在典型的人工智能系統(tǒng)中,每個模態(tài)都有特定的嵌入(即可以表示數(shù)據(jù)及其在機器學習中的關(guān)系的數(shù)字向量),”Meta 說?!癐mageBind 表明可以跨多種模態(tài)創(chuàng)建聯(lián)合嵌入空間,而無需使用每種不同模態(tài)組合對數(shù)據(jù)進行訓練。這很重要,因為研究人員無法創(chuàng)建包含例如來自繁忙城市街道的音頻數(shù)據(jù)和熱數(shù)據(jù),或深度數(shù)據(jù)和海邊文本描述的樣本的數(shù)據(jù)集。”

當前,外界可以通過大約 30 行 Python 代碼就能使用這個多模式嵌入 API:

51df03ea-ef4d-11ed-90ce-dac502259ad0.jpg

51fba202-ef4d-11ed-90ce-dac502259ad0.png

開源大模型是好事還是壞事?

ImageBind 一經(jīng)官宣,也吸引了很多 AI 專家的關(guān)注。如卷積網(wǎng)絡(luò)之父 Yann LeCun 也在第一時間分享了關(guān)于 ImageBind 的資料:

520d8fc6-ef4d-11ed-90ce-dac502259ad0.png

NVIDIA AI 科學家 Jim Fan 在 Twitter 上表示:

自從 LLaMA 以來,Meta 就在開源領(lǐng)域大放異彩。

ImageBind:Meta 最新的多模態(tài)嵌入,不僅涵蓋了常規(guī)數(shù)據(jù)類型(文本、圖像、音頻),還包括深度、熱量(紅外)和 IMU 信號!

OpenAI Embedding 是 AI 驅(qū)動搜索和長期記憶的基礎(chǔ)。ImageBind 是 Meta 的 Embedding API,用于豐富的多媒體搜索、虛擬現(xiàn)實甚至機器人技術(shù)。元宇宙將建立在向量的基礎(chǔ)上。

通過對齊 6 種模態(tài),你可以實現(xiàn)一些僅靠文本的 GPT-4 無法實現(xiàn)的花式功能:

跨模態(tài)檢索:將其視為多媒體谷歌搜索

嵌入空間算術(shù):無縫地組合不同的數(shù)據(jù)格式。

生成:通過擴散將任何模態(tài)映射到其他任何模態(tài)。

當然,這種通用的多模態(tài)嵌入在性能上優(yōu)于領(lǐng)域特定的特征。

ImageBind:將它們?nèi)拷壎ǖ揭粋€嵌入空間。

5227cab2-ef4d-11ed-90ce-dac502259ad0.png

也有網(wǎng)友評價道,「這項創(chuàng)新為增強搜索、沉浸式 VR 體驗和高級機器人技術(shù)鋪平了道路。對于 AI 愛好者和專業(yè)人士來說,激動人心的時刻即將到來!」。

5237a108-ef4d-11ed-90ce-dac502259ad0.png

不過,對于 Meta 采取開源的做法,也有人提出了質(zhì)疑。

據(jù) The Verge 報道,那些反對開源的人,如 OpenAI,表示這種做法對創(chuàng)作者有害,因為競爭對手可以復制他們的作品,并且可能具有潛在的危險,允許惡意行為者利用最先進的人工智能模型。

與之形成對比的是,支持開源的人則認為,像 Meta 開源 ImageBind 的做法有利于生態(tài)的快速建立與發(fā)展,也能集結(jié)全球的力量,幫助 AI 模型快速迭代和捕捉 Bug。

早些時候,Meta開源的LLaMA 模型只能用于研究用途,但是期間LLaMA 模型在 4chan 上被泄露,有匿名用戶通過 BT 種子公開了 LLaMA-65B—— 有650 億個參數(shù)的 LLaMA,容量為 220GB。

隨著 LLaMA “被公開”,一大批基于這款大模型的衍生品,號稱是 ChatGPT 開源替代品的工具在短時間內(nèi)快速涌現(xiàn),如跟著LLaMA(美洲駝)名字走的“駝類”家族包含了:斯坦福大學發(fā)布的Alpaca(羊駝,https://github.com/tatsu-lab/stanford_alpaca),伯克利、卡內(nèi)基梅隆大學等高校研究人員開源的Vicuna(駱馬),還有基于 LLaMA 7B 的多語言指令跟隨語言模型 Guanaco(原駝,https://guanaco-model.github.io/)等等。

面對這股新興的力量,近日,在一位谷歌內(nèi)部的研究人員泄露的一份文件中顯示,在大模型時代,「Google 沒有護城河,OpenAI 也沒有」。其主要原因就是第三股——開源大模型的力量與生態(tài)正在崛起。

所以,OpenAI 和 Google 兩家在 AI 大模型上你追我趕的競爭中,誰能笑到最后,也未必就不會是 Meta,我們也將拭目以待。對此,你是否看好開源大模型的發(fā)展?

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4209

    瀏覽量

    46172
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3755

    瀏覽量

    52124
  • Meta
    +關(guān)注

    關(guān)注

    0

    文章

    322

    瀏覽量

    12463

原文標題:Meta 開源 ImageBind 新模型,超越 GPT-4,對齊文本、音頻等 6 種模態(tài)!

文章出處:【微信號:AI科技大本營,微信公眾號:AI科技大本營】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    眾智FlagOS適配面壁智能開源模態(tài)模型MiniCPM-o 4.5

    2月3日,面壁智能正式發(fā)布并開源了集語言、視覺、語音于一體的全模態(tài)模型 MiniCPM-o 4.5。作為首個全雙工全模態(tài)模型,MiniC
    的頭像 發(fā)表于 02-09 14:45 ?686次閱讀
    眾智FlagOS適配面壁智能<b class='flag-5'>開源</b>全<b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>MiniCPM-o 4.5

    商湯科技正式開源模態(tài)自主推理模型SenseNova-MARS

    今日,商湯正式開源模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在多模態(tài)搜索與推理的核心基準測試中以 69.74 分
    的頭像 發(fā)表于 01-30 10:13 ?549次閱讀
    商湯科技正式<b class='flag-5'>開源</b>多<b class='flag-5'>模態(tài)</b>自主推理<b class='flag-5'>模型</b>SenseNova-MARS

    商湯開源SenseNova-MARS:突破多模態(tài)搜索推理天花板

    今日,商湯正式開源模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在多模態(tài)搜索與推理的核心基準測試中以 69.74 分
    的頭像 發(fā)表于 01-29 23:53 ?160次閱讀
    商湯<b class='flag-5'>開源</b>SenseNova-MARS:突破多<b class='flag-5'>模態(tài)</b>搜索推理天花板

    “明牌”對局,自變量開源模型超越pi0

    “明牌”對局,自變量開源模型超越pi0
    的頭像 發(fā)表于 01-10 12:00 ?5600次閱讀
    “明牌”對局,自變量<b class='flag-5'>開源</b><b class='flag-5'>模型</b><b class='flag-5'>超越</b>pi0

    商湯科技正式發(fā)布并開源全新多模態(tài)模型架構(gòu)NEO

    商湯科技正式發(fā)布并開源了與南洋理工大學S-Lab合作研發(fā)的全新多模態(tài)模型架構(gòu) —— NEO,為日日新SenseNova 多模態(tài)模型奠定了新一
    的頭像 發(fā)表于 12-08 11:19 ?1025次閱讀
    商湯科技正式發(fā)布并<b class='flag-5'>開源</b>全新多<b class='flag-5'>模態(tài)</b><b class='flag-5'>模型</b>架構(gòu)NEO

    格靈深瞳多模態(tài)模型Glint-ME讓圖文互搜更精準

    在電商、安防場景下,圖文互搜應(yīng)用廣泛。隨著以CLIP為代表的多模態(tài)表征方法相繼提出,過去單一模態(tài)搜索(文搜文、圖搜圖)被突破,模型可以同時理解文本
    的頭像 發(fā)表于 11-02 15:56 ?1722次閱讀
    格靈深瞳多<b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>Glint-ME讓圖文互搜更精準

    亞馬遜云科技上線Amazon Nova多模態(tài)嵌入模型

    的統(tǒng)一嵌入模型,能以行業(yè)頂尖的準確率實現(xiàn)跨模態(tài)檢索。 當今,企業(yè)正不斷尋求解決方案,以期從文本、圖像、文檔、視頻、音頻
    的頭像 發(fā)表于 10-29 17:15 ?272次閱讀
    亞馬遜云科技上線Amazon Nova多<b class='flag-5'>模態(tài)</b>嵌入<b class='flag-5'>模型</b>

    商湯日日新V6.5多模態(tài)模型登頂全球權(quán)威榜單

    Pro)多模態(tài)模型以82.2的綜合成績登頂榜首,領(lǐng)先Gemini 2.5 Pro以及GPT-5國際頂尖模型。
    的頭像 發(fā)表于 09-10 09:55 ?803次閱讀

    成都匯陽投資關(guān)于大模型白熱化,應(yīng)用加速分化

    ? ? ? ?大模型: 加速多模態(tài)研發(fā) ,閉源模型逐步逆襲開源模態(tài)技術(shù)路線尚未收斂 , 國內(nèi)外大模型
    的頭像 發(fā)表于 09-09 09:30 ?928次閱讀

    淺析多模態(tài)標注對大模型應(yīng)用落地的重要性與標注實例

    ”的關(guān)鍵工序——多模態(tài)標注重要性日益凸顯。 一、什么是多模態(tài)標注? 多模態(tài)標注是指對文本、圖像、語音、視頻、點云異構(gòu)數(shù)據(jù)進行跨
    的頭像 發(fā)表于 09-05 13:49 ?2332次閱讀

    基于米爾瑞芯微RK3576開發(fā)板的Qwen2-VL-3B模型NPU多模態(tài)部署評測

    案例:支持圖像和文本交互 步驟 1:環(huán)境準備 步驟 2:模型的獲取、驗證與格式轉(zhuǎn)換 步驟 3:修改代碼并交叉編譯可執(zhí)行文件并上傳到板子上 步驟 4:上傳文件到開發(fā)板 性能測試 Tips 多
    發(fā)表于 08-29 18:08

    訊飛星辰MaaS平臺率先上線OpenAI最新開源模型

    8月6日凌晨,OpenAI 時隔六年再次回歸開源,發(fā)布兩款全新的大語言模型gpt-oss-120b和gpt-oss-20b,性能與o
    的頭像 發(fā)表于 08-13 16:43 ?1577次閱讀

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    的推理能力和泛化能力。 在多項基準測試中,DeepSeek-V3的表現(xiàn)優(yōu)于GPT-4主流閉源模型,在長文本處理、 代碼生成和數(shù)學推理領(lǐng)
    發(fā)表于 07-17 11:59

    今日看點丨臺積電、Intel合資運營代工業(yè)務(wù);韓國計劃向當?shù)仄囆袠I(yè)注入3萬億韓元援助

    1. Meta 發(fā)布人工智能新模型系列 Llama 4 ,首次采用“混合專家”架構(gòu) ? 當?shù)貢r間周六(4月5日),美國科技巨頭Meta推出了
    發(fā)表于 04-07 11:26 ?625次閱讀

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型
    的頭像 發(fā)表于 03-17 15:32 ?8891次閱讀
    ?VLM(視覺語言<b class='flag-5'>模型</b>)?詳細解析