Hugging Face平臺于1月23日發(fā)布博文,推出了兩款令人矚目的輕量級AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。
其中,SmolVLM-256M-Instruct僅有2.56億參數(shù),是有史以來發(fā)布的最小視覺語言模型,可在內(nèi)存低于1GB的PC上運(yùn)行并提供卓越性能。SmolVLM-500M-Instruct有5億參數(shù),主要針對硬件資源限制,幫助開發(fā)者應(yīng)對大規(guī)模數(shù)據(jù)分析挑戰(zhàn)。
這兩款模型具備先進(jìn)的多模態(tài)能力,可執(zhí)行圖像描述、短視頻分析以及回答關(guān)于PDF或科學(xué)圖表的問題等任務(wù)。其開發(fā)依賴于The Cauldron和Docmatix兩個專有數(shù)據(jù)集。The Cauldron包含50個高質(zhì)量圖像和文本數(shù)據(jù)集,側(cè)重于多模態(tài)學(xué)習(xí);Docmatix專為文檔理解定制,將掃描文件與詳細(xì)標(biāo)題配對以增強(qiáng)理解。
此外,模型采用了更小的視覺編碼器SigLIP base patch-16/512,通過優(yōu)化圖像標(biāo)記處理方式,減少了冗余,還將圖像編碼速率提升至每個標(biāo)記4096像素,相比早期版本的每標(biāo)記1820像素有了顯著改進(jìn)。
Hugging Face此次推出的最小AI視覺語言模型,為AI在低資源設(shè)備上的應(yīng)用開辟了新的道路。
-
人工智能
+關(guān)注
關(guān)注
1817文章
50098瀏覽量
265414 -
語言模型
+關(guān)注
關(guān)注
0文章
571瀏覽量
11318 -
AI視覺
+關(guān)注
關(guān)注
0文章
111瀏覽量
4983
發(fā)布評論請先 登錄
NVIDIA Alpamayo 1模型在Hugging Face平臺下載量已突破10萬次
NVIDIA推出面向語言、機(jī)器人和生物學(xué)的全新開源AI技術(shù)
NVIDIA開源Audio2Face模型及SDK
什么是AI模型的推理能力
研華科技推出基于NVIDIA Jetson Thor平臺的邊緣AI新品MIC-743
【HZ-T536開發(fā)板免費(fèi)體驗】3 - Cangjie Magic調(diào)用視覺語言大模型(VLM)真香,是不是可以沒有YOLO和OCR了?
最新人工智能硬件培訓(xùn)AI基礎(chǔ)入門學(xué)習(xí)課程參考2025版(離線AI語音視覺識別篇)
NVIDIA助力圖靈新訊美推出企業(yè)級多模態(tài)視覺大模型融合解決方案
商湯科技日日新V6大模型斬獲“雙料第一” 一項國內(nèi)榜首,一個全球第一
大象機(jī)器人攜手進(jìn)迭時空推出 RISC-V 全棧開源六軸機(jī)械臂產(chǎn)品
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
如何基于Android 14在i.MX95 EVK上運(yùn)行Deepseek-R1-1.5B和性能
利用英特爾OpenVINO在本地運(yùn)行Qwen2.5-VL系列模型
Hugging Face推出最小AI視覺語言模型
評論