91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Hugging Face推出最小AI視覺語言模型

麥辣雞腿堡 ? 來源:網(wǎng)絡(luò)整理 ? 2025-01-24 14:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Hugging Face平臺于1月23日發(fā)布博文,推出了兩款令人矚目的輕量級AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。

其中,SmolVLM-256M-Instruct僅有2.56億參數(shù),是有史以來發(fā)布的最小視覺語言模型,可在內(nèi)存低于1GB的PC上運(yùn)行并提供卓越性能。SmolVLM-500M-Instruct有5億參數(shù),主要針對硬件資源限制,幫助開發(fā)者應(yīng)對大規(guī)模數(shù)據(jù)分析挑戰(zhàn)。

這兩款模型具備先進(jìn)的多模態(tài)能力,可執(zhí)行圖像描述、短視頻分析以及回答關(guān)于PDF或科學(xué)圖表的問題等任務(wù)。其開發(fā)依賴于The Cauldron和Docmatix兩個專有數(shù)據(jù)集。The Cauldron包含50個高質(zhì)量圖像和文本數(shù)據(jù)集,側(cè)重于多模態(tài)學(xué)習(xí);Docmatix專為文檔理解定制,將掃描文件與詳細(xì)標(biāo)題配對以增強(qiáng)理解。

此外,模型采用了更小的視覺編碼器SigLIP base patch-16/512,通過優(yōu)化圖像標(biāo)記處理方式,減少了冗余,還將圖像編碼速率提升至每個標(biāo)記4096像素,相比早期版本的每標(biāo)記1820像素有了顯著改進(jìn)。

Hugging Face此次推出的最小AI視覺語言模型,為AI在低資源設(shè)備上的應(yīng)用開辟了新的道路。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50098

    瀏覽量

    265414
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    571

    瀏覽量

    11318
  • AI視覺
    +關(guān)注

    關(guān)注

    0

    文章

    111

    瀏覽量

    4983
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA Alpamayo 1模型Hugging Face平臺下載量已突破10萬次

    NVIDIA Alpamayo 1 在 Hugging Face 的下載量已突破 10 萬次,且仍在持續(xù)增長,已成為 Hugging Face 平臺下載量最高的機(jī)器人
    的頭像 發(fā)表于 03-04 16:27 ?647次閱讀

    NVIDIA推出面向語言、機(jī)器人和生物學(xué)的全新開源AI技術(shù)

    NVIDIA 秉持對開源的長期承諾,推出了面向語言、機(jī)器人和生物學(xué)的全新開源 AI 技術(shù),為構(gòu)建開源生態(tài)系統(tǒng)做出貢獻(xiàn),擴(kuò)展 AI 的普及并推動創(chuàng)新。NVIDIA 正將這些
    的頭像 發(fā)表于 11-06 11:49 ?1076次閱讀

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現(xiàn)已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應(yīng)用開發(fā)者都可以構(gòu)建并部署帶有先進(jìn)動畫的高精度角色。NVIDIA 開源 Audio2Face 的訓(xùn)練框架,任何人都可以針對特定用例對現(xiàn)有
    的頭像 發(fā)表于 10-21 11:11 ?827次閱讀
    NVIDIA開源Audio2<b class='flag-5'>Face</b><b class='flag-5'>模型</b>及SDK

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個AI模型怎么搞,知識盲區(qū)
    發(fā)表于 10-14 07:14

    什么是AI模型的推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face
    的頭像 發(fā)表于 09-23 15:19 ?1278次閱讀

    研華科技推出基于NVIDIA Jetson Thor平臺的邊緣AI新品MIC-743

    研華重磅推出基于NVIDIA Jetson Thor平臺的邊緣AI新品 MIC-743,這款突破性產(chǎn)品以高達(dá)2070 FP4 TOPS的AI算力重新定義邊緣計算性能邊界,適用于當(dāng)前機(jī)器人、邊緣端VLM(
    的頭像 發(fā)表于 08-29 14:53 ?2065次閱讀

    【HZ-T536開發(fā)板免費(fèi)體驗】3 - Cangjie Magic調(diào)用視覺語言模型(VLM)真香,是不是可以沒有YOLO和OCR了?

    和管理 Agent 的專用語言。它允許開發(fā)人員通過結(jié)構(gòu)化的系統(tǒng)提示詞、工具和各類協(xié)作策略來增強(qiáng) Agent 的功能。 今天我們就嘗試在開發(fā)板上利用質(zhì)譜AI視覺語言
    發(fā)表于 08-01 22:15

    最新人工智能硬件培訓(xùn)AI基礎(chǔ)入門學(xué)習(xí)課程參考2025版(離線AI語音視覺識別篇)

    端側(cè)離線 AI 智能硬件作為 AI 技術(shù)的重要載體之一,憑借其無需依賴網(wǎng)絡(luò)即可實現(xiàn)智能功能的特性,在一些網(wǎng)絡(luò)條件受限或?qū)?shù)據(jù)隱私有較高要求的場景中,發(fā)揮著不可或缺的作用。本章基于CSK6大模型語音
    發(fā)表于 07-04 11:14

    NVIDIA助力圖靈新訊美推出企業(yè)級多模態(tài)視覺模型融合解決方案

    中國推出企業(yè)級多模態(tài)視覺模型融合解決方案,推動先進(jìn) AI 模型在交通治理、工業(yè)質(zhì)檢、金融風(fēng)控等領(lǐng)域?qū)崿F(xiàn)高效識別、精準(zhǔn)預(yù)警和穩(wěn)定交付。
    的頭像 發(fā)表于 06-26 09:17 ?1339次閱讀

    商湯科技日日新V6大模型斬獲“雙料第一” 一項國內(nèi)榜首,一個全球第一

    體Agent測試任務(wù)中獲得國內(nèi)最高分。 同時,根據(jù)Hugging Face——全球最大的AI開源社區(qū)上的數(shù)據(jù),在Open Compass本月的多
    的頭像 發(fā)表于 05-30 11:13 ?1592次閱讀
    商湯科技日日新V6大<b class='flag-5'>模型</b>斬獲“雙料第一” 一項國內(nèi)榜首,一個全球第一

    大象機(jī)器人攜手進(jìn)迭時空推出 RISC-V 全棧開源六軸機(jī)械臂產(chǎn)品

    、Qwen2.5-0.5B 以及 Qwen2.5-1.5B等豐富大模型資源,以及文本轉(zhuǎn)語音模型(melotts)、語音轉(zhuǎn)文本模型(paraformer)和視覺
    發(fā)表于 04-25 17:59

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    模型、通義千問、混元等多種先進(jìn)端側(cè)大模型,還包含視覺、語言、多模態(tài)等多種多樣的大模型,開發(fā)者可以通過Gen-
    發(fā)表于 04-13 19:52

    如何基于Android 14在i.MX95 EVK上運(yùn)行Deepseek-R1-1.5B和性能

    ://github.com/a-ghorbani/pocketpal-ai/releases/tag/v1.6.7 PocketPal AI 是一款開源的袖珍型 AI 助手,由直接運(yùn)行的小型
    發(fā)表于 04-04 06:59

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能
    的頭像 發(fā)表于 03-17 15:32 ?8849次閱讀
    ?VLM(<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    利用英特爾OpenVINO在本地運(yùn)行Qwen2.5-VL系列模型

    近期阿里通義實驗室在 Hugging Face 和 ModelScope 上開源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72B 在內(nèi)的 3 個
    的頭像 發(fā)表于 03-12 13:42 ?2611次閱讀
    利用英特爾OpenVINO在本地運(yùn)行Qwen2.5-VL系列<b class='flag-5'>模型</b>