中国av免费看,亚洲五码成人网开心激情站

近日，格靈深瞳靈感實(shí)驗(yàn)室和華為倫敦研究所發(fā)布最新版視覺基礎(chǔ)模型——Glint-MVT v1.5（RICE）。

格靈深瞳此前有6篇論文亮相國際頂級(jí)學(xué)術(shù)舞臺(tái)ICCV 2025，涵蓋視覺基座模型、人臉3D重建等領(lǐng)域，其中最新版MVT的相關(guān)論文不僅入選，還被接收為Highlight論文。

先看升級(jí)后的核心要點(diǎn)：

1技術(shù)創(chuàng)新性方面：新版MVT提出了一種區(qū)域局部感知增強(qiáng)的視覺特征學(xué)習(xí)方法。

2下游任務(wù)表現(xiàn)方面：在OCR和分割等任務(wù)上效果優(yōu)于v1.1版和AIMv2、SigLIP2。

3此外，團(tuán)隊(duì)還構(gòu)建了共4億圖像、20億局部區(qū)域、4億文字區(qū)域的預(yù)訓(xùn)練數(shù)據(jù)集。

概括來說，MVT v1.5的最大升級(jí)在于：強(qiáng)化了模型對(duì)圖像細(xì)節(jié)和文字特征的捕捉和表達(dá)能力，在精細(xì)任務(wù)上表現(xiàn)更優(yōu)。

以往的視覺-文本對(duì)比學(xué)習(xí)模型，如OpenAI的CLIP模型和谷歌的改進(jìn)版SigLIP模型等，更側(cè)重全局圖像特征（對(duì)圖像內(nèi)容的概括性描述），核心的訓(xùn)練邏輯是 “全局對(duì)齊”，讓模型理解圖像的整體語義，并和文本的整體語義相對(duì)應(yīng)。

但這類模型對(duì)圖像局部區(qū)域的細(xì)節(jié)信息表達(dá)較少，難以滿足需要精細(xì)處理圖像的任務(wù)，例如OCR和圖像分割等。

針對(duì)這一問題，新版MVT提出一種區(qū)域局部感知增強(qiáng)的視覺特征學(xué)習(xí)方法。

在技術(shù)方案上，格靈深瞳團(tuán)隊(duì)利用專家分割模型和OCR模型，對(duì)無標(biāo)注數(shù)據(jù)進(jìn)行處理，產(chǎn)生十億級(jí)局部區(qū)域，并通過聚類產(chǎn)生偽標(biāo)簽。也就是說，通過分割-OCR-聚類的技術(shù)流程，團(tuán)隊(duì)將無標(biāo)注數(shù)據(jù)轉(zhuǎn)化為帶偽標(biāo)簽的大規(guī)模訓(xùn)練集，節(jié)約了標(biāo)注成本，提升了自主學(xué)習(xí)能力。

同時(shí)，團(tuán)隊(duì)設(shè)計(jì)了區(qū)域Transformer層，用來提取局部區(qū)域特征和支持?jǐn)?shù)據(jù)擴(kuò)展的區(qū)域鑒別損失，使得團(tuán)隊(duì)能在億級(jí)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，突破了在大規(guī)模樣本上進(jìn)行高效訓(xùn)練的技術(shù)挑戰(zhàn)。

基于以上技術(shù)攻關(guān)，MVT v1.5增強(qiáng)了局部特征和文字特征。相較于傳統(tǒng)的全局圖像特征模型，新版MVT在檢測(cè)分割、OCR等對(duì)應(yīng)的下游任務(wù)表現(xiàn)上得到提升，有效性得到驗(yàn)證。

以文字OCR任務(wù)為例，從下圖可以看出，MVT v1.5（RICE）的多項(xiàng)分?jǐn)?shù)高于CLIP和SigLIP等模型。

文字OCR任務(wù)和全局理解任務(wù)：

引用分割：

檢測(cè)分割任務(wù)：

單目標(biāo)跟蹤任務(wù)：

從技術(shù)創(chuàng)新到下游任務(wù)，格靈深瞳并非單純追求學(xué)術(shù)表現(xiàn)，而是注重技術(shù)成果轉(zhuǎn)化應(yīng)用，通過提升任務(wù)表現(xiàn)推動(dòng)AI在多元場(chǎng)景中真正落地。

MVT v1.5背后的技術(shù)團(tuán)隊(duì)——格靈深瞳靈感實(shí)驗(yàn)室，是國內(nèi)計(jì)算機(jī)視覺領(lǐng)域的深耕者。靈感實(shí)驗(yàn)室聚焦于視覺及相關(guān)模態(tài)特征表達(dá)與應(yīng)用，主要研究方向包括：視覺基礎(chǔ)大模型、多模態(tài)大模型、圖文多模態(tài)表征、大規(guī)模分布式訓(xùn)練等。下一步，團(tuán)隊(duì)將錨定視頻理解領(lǐng)域，發(fā)布最新模型成果。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6254

瀏覽量
111333
模型

模型

+關(guān)注

關(guān)注
1

文章
3751

瀏覽量
52091
格靈深瞳

格靈深瞳

+關(guān)注

關(guān)注
1

文章
90

瀏覽量
5952

原文標(biāo)題：請(qǐng)查收一份“高光”研究成果：格靈深瞳Glint-MVT升級(jí)，局部和文字特征再增強(qiáng)

文章出處：【微信號(hào)：shentongzhineng，微信公眾號(hào)：格靈深瞳】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

格靈深瞳視覺基礎(chǔ)模型Glint-MVT升級(jí)

評(píng)論