91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

更強(qiáng)!Alpha-CLIP:讓CLIP關(guān)注你想要的任何地方!

CVer ? 來(lái)源:CVer ? 2023-12-10 10:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

簡(jiǎn)介

本文介紹了一個(gè)名為Alpha-CLIP的框架,它在原始的接受RGB三通道輸入的CLIP模型的上額外增加了一個(gè)alpha通道。在千萬(wàn)量級(jí)的RGBA-region的圖像文本對(duì)上進(jìn)行訓(xùn)練后,Alpha-CLIP可以在保證CLIP原始感知能力的前提下,關(guān)注到任意指定區(qū)域。通過(guò)替換原始CLIP的應(yīng)用場(chǎng)景,Alpha-CLIP在圖像識(shí)別、視覺(jué)-語(yǔ)言大模型、2D乃至3D生成領(lǐng)域都展現(xiàn)出強(qiáng)大作用。

9ac46fc6-96ac-11ee-8b88-92fbcf53809c.png

圖1 Alpha-CLIP使用場(chǎng)景總覽

CLIP作為目前最流行的視覺(jué)基座模型被廣泛使用。它的應(yīng)用場(chǎng)景包括但不限于1.與LLM大語(yǔ)言模型結(jié)合成為視覺(jué)多模態(tài)大模型。2.作為圖像生成(Stable Diffusion)、點(diǎn)云生成(Point-E)的condition model, 實(shí)現(xiàn)image-to-3D。3.用于指導(dǎo)NeRF的優(yōu)化方向從而實(shí)現(xiàn)text-to-3D。4.本身用于開(kāi)放類別的識(shí)別和檢測(cè)。

然而CLIP必須以整張圖片作為輸入并進(jìn)行特征提取,無(wú)法關(guān)注到指定的任意區(qū)域。然而,自然的2D圖片中往往包含不同的物體,part和thing。如果能由用戶或檢測(cè)模型指定需要關(guān)注的區(qū)域,在圖像編碼的過(guò)程就確定需要關(guān)注的對(duì)象,將會(huì)提升CLIP模型的可控制性和區(qū)域檢測(cè)能力。

為此,上海人工智能實(shí)驗(yàn)室聯(lián)合上海交通大學(xué)、復(fù)旦大學(xué)、香港中文大學(xué)、澳門(mén)大學(xué)的學(xué)者們提出了Alpha-CLIP模型,在原始CLIP模型的RGB三個(gè)通道的基礎(chǔ)上額外引入了第四個(gè)alpha通道來(lái)決定需要關(guān)注的區(qū)域。通過(guò)構(gòu)造千萬(wàn)量級(jí)的【RGBA四通道圖片-文本對(duì)】對(duì)Alpha-CLIP進(jìn)行訓(xùn)練,Alpha-CLIP不僅在ImageNet上保持了原始的全圖檢測(cè)能力,還能對(duì)用戶指定的任意區(qū)域進(jìn)行highlight關(guān)注。下面分別介紹Alpha-CLIP的應(yīng)用場(chǎng)景。

9ae2f9be-96ac-11ee-8b88-92fbcf53809c.png

* 論文鏈接:https://arxiv.org/abs/2312.03818 * 項(xiàng)目主頁(yè):https://aleafy.github.io/alpha-clip * 代碼鏈接:https://github.com/SunzeY/AlphaCLIP1. 圖像分類

如圖所示,對(duì)于ImagNet的一張圖片,我們可以通過(guò)alpha-map控制CLIP去關(guān)注魚(yú)或漁夫。

9afde3fa-96ac-11ee-8b88-92fbcf53809c.png

9b149d20-96ac-11ee-8b88-92fbcf53809c.png

以ImageNet的Zero-Shot Classification作為評(píng)價(jià)指標(biāo),我們驗(yàn)證了在對(duì)全圖進(jìn)行識(shí)別時(shí),Alpha-CLIP可以保持原本CLIP的分類準(zhǔn)確率。進(jìn)一步地,在給出了需要關(guān)注區(qū)域的長(zhǎng)方形box或者mask時(shí),Alpha-CLIP可以進(jìn)一步提升分類準(zhǔn)確率。

2. 與LLM大語(yǔ)言模型的結(jié)合

將主流的LLaVA-1.5中的CLIP基座模型替換為Alpha-CLIP,用戶可以通過(guò)簡(jiǎn)單地用畫(huà)筆標(biāo)記處需要關(guān)注的區(qū)域,從而進(jìn)行指定區(qū)域的對(duì)話交互。

在定量實(shí)驗(yàn)方面,我們通過(guò)LLaVA測(cè)試了MLLM的region caption能力。通過(guò)在RefCOCO和VG上分別進(jìn)行finetune,取得了SOTA的region caption分?jǐn)?shù)。

9b25a822-96ac-11ee-8b88-92fbcf53809c.png

3. 與Stable Diffusion的結(jié)合

Stable-Diffusion是目前主流的2D圖片生成模型,其Image Variation版本可以實(shí)現(xiàn)“圖生圖”,其中圖片的編碼器也是CLIP模型。通過(guò)將該模型替換為Alpha-CLIP,可以實(shí)現(xiàn)更復(fù)雜圖片中指定物體的生成(同時(shí)較好地保留背景)。如上圖所示,使用原始的CLIP會(huì)生成同時(shí)具有獅子和老虎特征的“獅虎獸”,而Alpha-CLIP能夠很好地區(qū)分兩個(gè)物體,從而指導(dǎo)Stable Diffusion模型生成更專一的圖片。更多結(jié)果見(jiàn)下圖

9b33657a-96ac-11ee-8b88-92fbcf53809c.png

4. 與Point-E的結(jié)合

Point-E是Open-AI開(kāi)源的一個(gè)支持Image-to-3D和text-to-3D的點(diǎn)云diffusion模型,通過(guò)將它的Image編碼器從原始的CLIP替換為Alpha-CLIP??梢灾С钟脩魧?duì)任意區(qū)域進(jìn)行關(guān)注,從而恢復(fù)丟失的“表針”和“盾牌的十字架”。更多結(jié)果見(jiàn)下圖

9b53d166-96ac-11ee-8b88-92fbcf53809c.png

5. Attention Map可視化

本工作對(duì)Alpha-CLIP的注意力進(jìn)行可視化,以檢查Alpha-CLIP是否更加關(guān)注用戶定義alpha-map。通過(guò)檢查視覺(jué)編碼器中最后一個(gè)Transformer塊中[CLS] token的注意力圖??梢暬捎昧司哂?6個(gè)注意頭的ViT-L/14模型。為了進(jìn)行公正比較,使用第5和第16個(gè)注意頭的注意力圖進(jìn)行可視化,因?yàn)槲覀儼l(fā)現(xiàn)在這16個(gè)頭中,這兩個(gè)特征圖最為明顯。結(jié)果如下圖所示。這種可視化驗(yàn)證了Alpha-CLIP更加關(guān)注要聚焦的區(qū)域,更重要的是,它在保留原始CLIP特征位置的二維位置信息時(shí)沒(méi)有造成損害。

9b755b6a-96ac-11ee-8b88-92fbcf53809c.png

結(jié)論

本文介紹的這項(xiàng)工作提出了Alpha-CLIP模型,該模型引入了一個(gè)額外的alpha通道,用于指定感興趣的區(qū)域。通過(guò)對(duì)數(shù)百萬(wàn)個(gè)RGBA區(qū)域-文本對(duì)進(jìn)行訓(xùn)練,Alpha-CLIP不僅表現(xiàn)出卓越的區(qū)域關(guān)注能力,而且確保其輸出空間與原始的CLIP模型保持一致。這種一致性使得Alpha-CLIP在CLIP的各種下游應(yīng)用中能夠輕松替代,無(wú)縫銜接。我們證明了當(dāng)提供特定關(guān)注的區(qū)域時(shí),Alpha-CLIP展現(xiàn)出了更強(qiáng)大的Zero-Shot識(shí)別能力,并驗(yàn)證了它在許多下游任務(wù)中的有用性。CLIP的應(yīng)用遠(yuǎn)遠(yuǎn)超出了本文的范圍。我們希望在前景區(qū)域或mask較容易獲得時(shí),Alpha-CLIP將能夠在更多場(chǎng)景中得到應(yīng)用。

雖然Alpha-CLIP在需要關(guān)注區(qū)域的各種場(chǎng)景中表現(xiàn)出有效的性能,但目前的結(jié)構(gòu)和訓(xùn)練過(guò)程限制了其專注于多個(gè)對(duì)象或建模不同對(duì)象之間關(guān)系的能力。此外,當(dāng)前的訓(xùn)練方法限制了alpha通道在中間值之外的泛化(只能接受0,1兩個(gè)值)。因此,用戶無(wú)法指定注意力的幅度。另一個(gè)限制同時(shí)存在于我們的Alpha-CLIP和原始CLIP中,即純Transformer結(jié)構(gòu)的編碼器分辨率較低,這阻礙了Alpha-CLIP識(shí)別小物體并進(jìn)行關(guān)注。我們計(jì)劃在未來(lái)的工作中解決這些限制并擴(kuò)展CLIP的輸入分辨率。我們相信這些未來(lái)的方向是增強(qiáng)Alpha-CLIP能力并在各種下游任務(wù)中擴(kuò)展其實(shí)用性的途徑。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50094

    瀏覽量

    265299
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    34

    瀏覽量

    7260
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3648

    瀏覽量

    5179

原文標(biāo)題:更強(qiáng)!Alpha-CLIP:讓CLIP關(guān)注你想要的任何地方!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    請(qǐng)問(wèn)在哪里可以找到 VisionFive 2 上的 VPU?

    /building_starfive_debian_image, VPU驅(qū)動(dòng)程序是要建造的。但是,它不應(yīng)該帶有相應(yīng)的物理硬件嗎? 在這個(gè)VisionFive 2 規(guī)范,沒(méi)有任何地方提到VPU,但只有一個(gè)JH7110 處理器 + 想象力GPU. 誰(shuí)能在黑板上突出顯示,在哪里VPU單元?
    發(fā)表于 02-11 08:17

    PS、AutoCAD、Maya 的遠(yuǎn)程工作方案,在家也能拉滿辦公性能

    遠(yuǎn)程與混合辦公模式讓我們幾乎能在任何地方工作,這許多企業(yè)效率提升、成本優(yōu)化,員工滿意度也更高。但凡事有例外,對(duì)于需要使用高性能工具的工作,比如CAD制圖、3D建模、視頻剪輯等,傳統(tǒng)遠(yuǎn)程辦公
    的頭像 發(fā)表于 02-02 17:03 ?1143次閱讀
    PS、AutoCAD、Maya 的遠(yuǎn)程工作方案,在家也能拉滿辦公性能

    森國(guó)科發(fā)布兩款創(chuàng)新TOLL+Cu-Clip封裝SiC MOSFET產(chǎn)品

    KM025065K1(650V/25mΩ)與 KM040120K1(1200V/40mΩ)兩款SiC MOSFET產(chǎn)品,率先將TOLL封裝與銅夾片(Cu-Clip)技術(shù)深度融合,為下一代高性能電源方案樹(shù)立了新標(biāo)桿。
    的頭像 發(fā)表于 01-26 17:27 ?659次閱讀
    森國(guó)科發(fā)布兩款創(chuàng)新TOLL+Cu-<b class='flag-5'>Clip</b>封裝SiC MOSFET產(chǎn)品

    森國(guó)科創(chuàng)新推出PDFN8*8結(jié)合Cu-Clip封裝碳化硅二極管

    森國(guó)科最新推出的采用PDFN8*8封裝并結(jié)合Cu-Clip(銅帶)連接技術(shù)的碳化硅二極管,代表了公司在功率半導(dǎo)體封裝技術(shù)領(lǐng)域的重要?jiǎng)?chuàng)新。這一創(chuàng)新解決方案針對(duì)高功率密度和高效率應(yīng)用需求,通過(guò)優(yōu)化封裝結(jié)構(gòu)和互連工藝,顯著提升了產(chǎn)品性能。
    的頭像 發(fā)表于 01-21 17:31 ?793次閱讀
    森國(guó)科創(chuàng)新推出PDFN8*8結(jié)合Cu-<b class='flag-5'>Clip</b>封裝碳化硅二極管

    TE Connectivity CROWN CLIP Sr. 420A電源連接器技術(shù)解析與應(yīng)用指南

    TE Connectivity (TE) CROWN CLIP Sr. 420A電源連接器采用緊湊、大電流、盲插設(shè)計(jì),易于安裝和使用。由于采用帶角度的浮動(dòng)式設(shè)計(jì),該連接器的盲插能力可最大限度地減少
    的頭像 發(fā)表于 11-07 11:24 ?531次閱讀

    格靈深瞳多模態(tài)大模型Glint-ME圖文互搜更精準(zhǔn)

    在電商、安防等場(chǎng)景下,圖文互搜應(yīng)用廣泛。隨著以CLIP為代表的多模態(tài)表征方法相繼提出,過(guò)去單一模態(tài)搜索(文搜文、圖搜圖)被突破,模型可以同時(shí)理解文本、圖像、音頻乃至視頻,實(shí)現(xiàn)跨模態(tài)檢索。
    的頭像 發(fā)表于 11-02 15:56 ?1713次閱讀
    格靈深瞳多模態(tài)大模型Glint-ME<b class='flag-5'>讓</b>圖文互搜更精準(zhǔn)

    1688 多模態(tài)搜索從 0 到 1:逆向接口解析與 CLIP 特征匹配實(shí)踐

    本文分享基于CLIP模型與逆向工程實(shí)現(xiàn)1688圖片搜同款的實(shí)戰(zhàn)方案。通過(guò)抓包分析破解接口簽名,結(jié)合CLIP多模態(tài)特征提取與Faiss向量檢索,提升搜索準(zhǔn)確率至91%,單次響應(yīng)低于80ms,日均選品效率提升4倍,全程合規(guī)可復(fù)現(xiàn)。
    的頭像 發(fā)表于 10-17 10:00 ?548次閱讀

    如何大模型生成你想要的測(cè)試用例?

    ,有角色定位,有業(yè)務(wù)背景,有個(gè)人偏好,有目標(biāo)達(dá)成標(biāo)準(zhǔn),有格式規(guī)范要求等,智能模板充當(dāng)你的個(gè)人翻譯官,充分發(fā)揮每一句設(shè)定提示詞的作用和價(jià)值,生成屬于你想要風(fēng)格的測(cè)試
    的頭像 發(fā)表于 09-26 10:01 ?944次閱讀
    如何<b class='flag-5'>讓</b>大模型生成<b class='flag-5'>你想要</b>的測(cè)試用例?

    格靈深瞳三項(xiàng)成果獲得國(guó)際頂級(jí)學(xué)術(shù)會(huì)議認(rèn)可

    以O(shè)penAI CLIP為代表的多模態(tài)預(yù)訓(xùn)練模型,為安防、電商等應(yīng)用場(chǎng)景提供了強(qiáng)大的跨模態(tài)理解基礎(chǔ),但也存在多種技術(shù)局限性。
    的頭像 發(fā)表于 09-15 14:43 ?1361次閱讀

    CYW920820M2EVB-01開(kāi)發(fā)套件可以與藍(lán)牙的免提配置文件一起使用嗎?

    我有英飛凌 CYW920820M2EVB-01 開(kāi)發(fā)套件,我想將它與藍(lán)牙的免提配置文件一起使用。 是否可以。 該套件是否支持該配置文件? 我無(wú)法在任何地方找到該套件支持的配置文件。 如果是,那么我可以得到一些關(guān)于如何執(zhí)行此操作的提示嗎?
    發(fā)表于 06-30 06:15

    普萊信Clip Bond封裝整線設(shè)備,獲功率半導(dǎo)體國(guó)際巨頭海外工廠訂單

    據(jù)悉,在高端Clip封裝設(shè)備領(lǐng)域長(zhǎng)期由少數(shù)國(guó)際巨頭把持的局面下,近期,中國(guó)半導(dǎo)體裝備制造商普萊信實(shí)現(xiàn)了重大突破,普萊信Clip Bond封裝整線設(shè)備(涵蓋高精度固晶機(jī)、夾焊機(jī)及在線式真空爐)獲功率
    的頭像 發(fā)表于 06-16 09:00 ?1299次閱讀
    普萊信<b class='flag-5'>Clip</b> Bond封裝整線設(shè)備,獲功率半導(dǎo)體國(guó)際巨頭海外工廠訂單

    GPS時(shí)間服務(wù)器提供高精度的授時(shí)-唯尚

    該產(chǎn)品提供的高精度的網(wǎng)絡(luò)同步時(shí)鐘直接來(lái)自于GPS系統(tǒng)中各個(gè)衛(wèi)星的原子鐘(也可以根據(jù)用戶的要求選擇其他衛(wèi)星授時(shí)系統(tǒng)作為時(shí)間的基準(zhǔn)源)。產(chǎn)品內(nèi)部集成了一個(gè)高品質(zhì)的12通道GPS授時(shí),可以在任何地方為網(wǎng)絡(luò)提供高精度的授時(shí)及同步服務(wù)。
    的頭像 發(fā)表于 04-23 14:05 ?693次閱讀
    GPS時(shí)間服務(wù)器提供高精度的授時(shí)-唯尚

    由 樹(shù)莓派4 驅(qū)動(dòng)的貨運(yùn)農(nóng)場(chǎng)!

    由樹(shù)莓派4驅(qū)動(dòng)的垂直水培農(nóng)場(chǎng)客戶可以在任何地方種植和監(jiān)控新鮮農(nóng)產(chǎn)品FreightFarms需要強(qiáng)大的計(jì)算能力以及靈活的I/O和物聯(lián)網(wǎng)功能來(lái)支持其高產(chǎn)出的集裝箱農(nóng)場(chǎng)。RaspberryPi4提供了高性能和無(wú)摩擦開(kāi)發(fā),價(jià)格也非常優(yōu)惠,這正是他們產(chǎn)品所需的小外形尺寸
    的頭像 發(fā)表于 03-25 09:48 ?663次閱讀
    由 樹(shù)莓派4 驅(qū)動(dòng)的貨運(yùn)農(nóng)場(chǎng)!

    蕪湖,起飛!樹(shù)莓派性能飆升的小秘訣~

    速度,還是優(yōu)化系統(tǒng)性能,都能在這里找到答案。發(fā)現(xiàn)你的RaspberryPi并未發(fā)揮出全部性能?你并不孤單。RaspberryPi比以往任何時(shí)候都更強(qiáng)大,但如果你想要獲得
    的頭像 發(fā)表于 03-25 09:33 ?869次閱讀
    蕪湖,起飛!<b class='flag-5'>讓</b>樹(shù)莓派性能飆升的小秘訣~

    請(qǐng)問(wèn)在哪里可以下載AN3942SW?

    的 DoOnStack 軟件包嗎? 我在任何地方都找不到下載鏈接。我看到的唯一參考資料是發(fā)布到此論壇的問(wèn)題,要求提供該軟件包。
    發(fā)表于 03-25 06:17