91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

低成本擴(kuò)大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型

CVer ? 來(lái)源:CVer ? 2023-12-04 15:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

低成本擴(kuò)大輸入分辨率:探秘98億參數(shù)多模態(tài)大模型--Monkey眼中的世界

【導(dǎo)讀】11月,華中科技大學(xué)團(tuán)隊(duì)發(fā)布了新的多模態(tài)大模型——Monkey,通過(guò)專(zhuān)注于大分辨率,使得Monkey能夠處理分辨率高達(dá)1344×896的圖像,并加入了有著詳細(xì)描述的高質(zhì)量圖文數(shù)據(jù)進(jìn)行訓(xùn)練,幫助Monkey煉就洞察圖像細(xì)節(jié)的火眼金睛,取得了與Caption和QA任務(wù)相關(guān)的16個(gè)數(shù)據(jù)集的SOTA,甚至與GPT4V相比,在密集文本問(wèn)答任務(wù)上也有著亮眼的表現(xiàn)。

論文鏈接:https://arxiv.org/abs/2311.06607

代碼地址:https://github.com/Yuliang-Liu/Monkey

官方demo效果展示:

Monkey在密集文本的問(wèn)答任務(wù)上取得了很不錯(cuò)的效果,可以根據(jù)問(wèn)題的要求進(jìn)行推理,能夠適配中文問(wèn)答

ed9b49ec-91f5-11ee-939d-92fbcf53809c.gif

在文本較少的場(chǎng)景中Monkey也展現(xiàn)了不俗的問(wèn)答能力,自身?yè)碛胸S富的知識(shí)庫(kù),可以根據(jù)問(wèn)題進(jìn)行外推,從而回答出正確的答案

edba5922-91f5-11ee-939d-92fbcf53809c.gif

Monkey在Caption任務(wù)上同樣取得了出色的結(jié)果,不僅僅是對(duì)圖片進(jìn)行準(zhǔn)確詳細(xì)的描述,同時(shí)能夠合理發(fā)散,分析出圖片所傳達(dá)的一些抽象含義

以下是Monkey同GPT4V在密集文本與圖表上進(jìn)行問(wèn)答的可視化結(jié)果展示。

edc275e4-91f5-11ee-939d-92fbcf53809c.png

下圖展示了Monkey的卓越性能,在 18 個(gè)不同的數(shù)據(jù)集上進(jìn)行測(cè)試的結(jié)果表明,Monkey能夠很好地勝任圖像描述生成、場(chǎng)景問(wèn)答、以場(chǎng)景文本為中心的視覺(jué)問(wèn)答和面向文檔的視覺(jué)問(wèn)答等任務(wù),并在16個(gè)數(shù)據(jù)集上取得SOTA。

edc7e358-91f5-11ee-939d-92fbcf53809c.png

方法介紹:

1. 增大輸入分辨率

將原始輸入圖片裁剪成多個(gè)圖片塊,再將這些圖片塊和原始輸入圖片統(tǒng)一到448*448的尺寸。每個(gè)圖片塊經(jīng)過(guò)視覺(jué)編碼時(shí)會(huì)加入一個(gè)專(zhuān)屬的Lora以此更好地提取圖片塊的局部視覺(jué)特征,訓(xùn)練時(shí)僅訓(xùn)練Lora部分,而原始的輸入圖像則用于提取全局特征,以此方法達(dá)到增大輸入分辨率的目的。

eddb3a70-91f5-11ee-939d-92fbcf53809c.png

2. 多級(jí)特征融合的詳細(xì)描述生成方法生成高質(zhì)量圖文數(shù)據(jù)

主要分為五個(gè)步驟:第一步,使用BLIP2對(duì)整張圖生成全局描述;第二步用 GRIT生成區(qū)域框,并提供區(qū)域中對(duì)象的名稱(chēng)和詳細(xì)描述,同時(shí)使用PPOCR提取區(qū)域的文本框坐標(biāo)和文本內(nèi)容;第三步使用SAM進(jìn)行分割,并送入BLIP2生成對(duì)各個(gè)物體及其組成部分的詳細(xì)描述;第四步使用BLIP-2 評(píng)估過(guò)濾掉低分匹配;最后使用ChatGPT 對(duì)上述得到的描述進(jìn)行總結(jié)從而得到圖像的詳細(xì)描述。

eddf41ec-91f5-11ee-939d-92fbcf53809c.png

下圖為使用使用多級(jí)特征融合的詳細(xì)描述生成方法后得到的標(biāo)注與原始CC3M標(biāo)注的對(duì)比,不難看出,兩種標(biāo)注之間存在著較大的差距,生成的詳細(xì)標(biāo)注盡可能地包含了圖片中的各種細(xì)節(jié),而不像是CC3M地原始標(biāo)注那樣一句帶過(guò)。利用這樣高質(zhì)量的圖文數(shù)據(jù)進(jìn)行訓(xùn)練,使得Monkey能夠更好地把握?qǐng)D文之間的關(guān)系。

edf95c12-91f5-11ee-939d-92fbcf53809c.png

更多的可視化對(duì)比結(jié)果與展示:

通過(guò)下圖展示的Monkey在QA任務(wù)上與多種大模型的對(duì)比結(jié)果,從中我們能夠更加直觀(guān)地感受到Monkey強(qiáng)大的問(wèn)答能力,能夠準(zhǔn)確地把握住問(wèn)題并給出正確的回答,尤其是在密集文本問(wèn)答任務(wù)上,目前的大模型或多或少都面臨著一定的問(wèn)題,Monkey為解決這一難題提供了一條可行的出路。

ee01832e-91f5-11ee-939d-92fbcf53809c.png

總結(jié)

Monkey提出了一種訓(xùn)練高效的方法,無(wú)需預(yù)訓(xùn)練即可有效地提高模型的輸入分辨率,最高可達(dá)896 x 1344像素。為了彌補(bǔ)簡(jiǎn)單文本標(biāo)簽和高分辨率輸入之間的差距,Monkey提出了一種多級(jí)特征融合的詳細(xì)描述生成方法,它可以自動(dòng)提供豐富的信息,以引導(dǎo)模型學(xué)習(xí)圖像中各個(gè)物體的屬性及其聯(lián)系。通過(guò)這兩種設(shè)計(jì)的協(xié)同作用,Monkey練就了一雙火眼金睛,在多個(gè)基準(zhǔn)測(cè)試中取得了出色的結(jié)果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 高分辨率
    +關(guān)注

    關(guān)注

    0

    文章

    60

    瀏覽量

    15748
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42330
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3650

    瀏覽量

    5185

原文標(biāo)題:低成本擴(kuò)大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    淺談掃描電鏡的分辨率概念

    掃描電鏡(SEM)的分辨率是指其能夠分辨樣品表面兩點(diǎn)之間的最小距離,是衡量其成像能力的關(guān)鍵指標(biāo)。
    的頭像 發(fā)表于 01-14 16:55 ?1281次閱讀
    淺談掃描電鏡的<b class='flag-5'>分辨率</b>概念

    紅外焦平面探測(cè)器的分辨率有哪些?高分辨率有哪些優(yōu)勢(shì)?

    分辨率是我們選購(gòu)紅外探測(cè)器時(shí)的一個(gè)關(guān)鍵參數(shù),它代表了熱成像像素點(diǎn)的數(shù)量。分辨率越高,像素點(diǎn)就越多,圖像就越清晰,觀(guān)測(cè)的距離也越遠(yuǎn)。紅外熱成像常見(jiàn)的分辨率有120x90、256x192、384x288
    的頭像 發(fā)表于 12-10 16:12 ?1191次閱讀
    紅外焦平面探測(cè)器的<b class='flag-5'>分辨率</b>有哪些?高<b class='flag-5'>分辨率</b>有哪些優(yōu)勢(shì)?

    ADC分辨率與精度的區(qū)別是什么

    簡(jiǎn)單點(diǎn)說(shuō),“精度”是用來(lái)描述物理量的準(zhǔn)確程度的,而“分辨率”是 用來(lái)描述刻度劃分的。從定義上看,這兩個(gè)量應(yīng)該是風(fēng)馬牛不相及的。(是不是有朋友感到愕然^_^)。 很多賣(mài)傳感器的JS就是利用這一點(diǎn)
    發(fā)表于 12-05 06:24

    鏡頭分辨率如何匹配工業(yè)相機(jī)的分辨率

    能被分辨開(kāi)來(lái)的兩個(gè)物點(diǎn)之間的最小距離,就是鏡頭的物方分辨率。單位為μm。這只是單純鏡頭本身的參數(shù),只反映鏡頭的解析能力,而和工業(yè)相機(jī)多少像素?zé)o關(guān)!它直接反映了,一個(gè)理想物點(diǎn)經(jīng)過(guò)鏡頭成像后,會(huì)模糊
    的頭像 發(fā)表于 11-21 15:43 ?378次閱讀
    鏡頭<b class='flag-5'>分辨率</b>如何匹配工業(yè)相機(jī)的<b class='flag-5'>分辨率</b>

    提高電能質(zhì)量在線(xiàn)監(jiān)測(cè)裝置的暫態(tài)記錄分辨率的方法有哪些?

    ? 提高電能質(zhì)量在線(xiàn)監(jiān)測(cè)裝置暫態(tài)記錄分辨率,核心是從 硬件升級(jí)、算法優(yōu)化、數(shù)據(jù)處理、校準(zhǔn)同步 四個(gè)維度突破,同時(shí)平衡 “分辨率提升” 與 “成本、功耗、穩(wěn)定性”,具體方法可落地為以下 6 類(lèi)關(guān)鍵措施
    的頭像 發(fā)表于 11-14 16:12 ?2096次閱讀

    電能質(zhì)量在線(xiàn)監(jiān)測(cè)裝置的暫態(tài)記錄分辨率如何影響故障類(lèi)型識(shí)別?

    暫態(tài)記錄分辨率是故障類(lèi)型識(shí)別的 “細(xì)節(jié)放大鏡”—— 核心通過(guò) 采樣、幅值分辨率、時(shí)間分辨率 決定故障波形 “特征細(xì)節(jié)的完整性”,高分辨率
    的頭像 發(fā)表于 11-14 16:10 ?1888次閱讀
    電能質(zhì)量在線(xiàn)監(jiān)測(cè)裝置的暫態(tài)記錄<b class='flag-5'>分辨率</b>如何影響故障類(lèi)型識(shí)別?

    格靈深瞳模態(tài)模型Glint-ME讓圖文互搜更精準(zhǔn)

    在電商、安防等場(chǎng)景下,圖文互搜應(yīng)用廣泛。隨著以CLIP為代表的模態(tài)表征方法相繼提出,過(guò)去單一模態(tài)搜索(文搜文、圖搜圖)被突破,模型可以同時(shí)
    的頭像 發(fā)表于 11-02 15:56 ?1717次閱讀
    格靈深瞳<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>Glint-ME讓圖文互搜更精準(zhǔn)

    亞馬遜云科技上線(xiàn)Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線(xiàn),這是一款專(zhuān)為Agentic RAG與語(yǔ)義搜索應(yīng)用打造的頂尖模態(tài)
    的頭像 發(fā)表于 10-29 17:15 ?266次閱讀
    亞馬遜云科技上線(xiàn)Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入<b class='flag-5'>模型</b>

    分辨率對(duì)于模擬到數(shù)字轉(zhuǎn)換器有什么重要性

    )。輸入帶寬:高分辨率ADC需配合寬輸入帶寬,以避免高頻信號(hào)在采樣前失真。例如,12位ADC若需處理100MHz信號(hào),其輸入帶寬需遠(yuǎn)高于100MHz。功耗與
    發(fā)表于 09-18 09:31

    米爾RK3576部署端側(cè)模態(tài)輪對(duì)話(huà),6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    與特征提取讀取輸入圖片后,先將其擴(kuò)展為正方形并填充背景色以統(tǒng)一尺寸,再調(diào)整至模型要求的 392x392 分辨率,最后送入視覺(jué)編碼模型進(jìn)行處理,生成圖片的 embedding 向量,完成
    發(fā)表于 09-05 17:25

    迅為RK3588開(kāi)發(fā)板Android系統(tǒng)修改屏幕分辨率和density

    先來(lái)了解下屏幕相關(guān)的基本概念 修改屏幕分辨率和 density 有倆種方法。 方法一: 輸入以下命令查看分辨率的大小,如下圖所示: wm size 輸入以下命令修改屏幕
    發(fā)表于 08-12 16:53

    精度,重復(fù)精度和分辨率有什么關(guān)聯(lián)

    精度,重復(fù)精度和分辨率,這三個(gè)令人疑惑的術(shù)語(yǔ)有很多種定義方法。
    的頭像 發(fā)表于 07-26 17:13 ?925次閱讀
    精度,重復(fù)精度和<b class='flag-5'>分辨率</b>有什么關(guān)聯(lián)

    分辨率 vs 噪聲 —— ADC的挑戰(zhàn)

    設(shè)計(jì)者常用高分辨率 ADC 以降低最低可量測(cè)單位(LSB),提高檢測(cè)精度。 比如一個(gè) 16 位 ADC 在 5V 范圍內(nèi), LSB ≈ 76 μV ;理想情況下可以檢測(cè)到微弱電信號(hào)。 問(wèn)題是: 若
    的頭像 發(fā)表于 06-23 07:38 ?1919次閱讀
    <b class='flag-5'>分辨率</b> vs 噪聲 —— ADC的挑戰(zhàn)

    如何計(jì)算存儲(chǔ)示波器的垂直分辨率?

    存儲(chǔ)示波器的垂直分辨率是指示波器能夠分辨的最小電壓變化量,它反映了示波器對(duì)信號(hào)幅度細(xì)節(jié)的測(cè)量能力,通常用位數(shù)(bit)來(lái)表示,也可通過(guò)相關(guān)公式換算為具體的電壓值。以下為你詳細(xì)介紹其計(jì)算方法:了解關(guān)鍵
    發(fā)表于 05-30 14:03

    愛(ài)芯通元NPU適配Qwen2.5-VL-3B視覺(jué)模態(tài)模型

    熟悉愛(ài)芯通元NPU的網(wǎng)友很清楚,從去年開(kāi)始我們?cè)诙藗?cè)模態(tài)模型適配上一直處于主動(dòng)緊跟的節(jié)奏。先后適配了國(guó)內(nèi)最早開(kāi)源的模態(tài)大模MiniCP
    的頭像 發(fā)表于 04-21 10:56 ?3153次閱讀
    愛(ài)芯通元NPU適配Qwen2.5-VL-3B視覺(jué)<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>