91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

VLA模型是基于預置規(guī)則來指導行動嗎?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-12-25 09:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號]今天繼續(xù)來回答小伙伴的提問,最近有一位小伙伴提問,VLA模型中的理解是不是也基于一些預置的規(guī)則指導行動的?其實這個問題非常值得討論,今天智駕最前沿就帶大家詳細聊一聊。

wKgZO2lMkcmAc9r6AAAQo00DEvw195.jpg

視覺-語言-動作(VLA)模型是什么?

在講今天的內(nèi)容之前,要先把VLA講清楚。視覺-語言-動作模型(Vision-Language-Action Model,簡稱VLA)是近年來機器人人工智能領(lǐng)域興起的一類模型。它的目標是讓一臺機器“看懂世界”、“理解任務(wù)指令”,然后自己去執(zhí)行動作。

wKgZPGlMkcqAXl37AACupHq5c98744.jpg

圖片源自:網(wǎng)絡(luò)

舉個例子,一臺機器人面對一個裝滿玩具的桌子,你用語言告訴它“把紅色球放進盒子里”,它就需要先“看見”桌子上的東西,分辨出哪個是紅色球和盒子;然后它要理解你說的這句話的意思;最后它得控制自己的機械臂抓起球并放到指定位置。VLA模型的意義就在于把這三個任務(wù)整合起來,而不是像傳統(tǒng)機械那樣把每個步驟拆開做。

一個典型的VLA模型會包括兩個核心部分,一個是視覺-語言編碼器(Vision-Language Encoder),負責把圖像和語言輸入映射成機器內(nèi)部可以處理的表示;另一個是動作解碼器(Action Decoder),負責根據(jù)這種內(nèi)部表示生成具體執(zhí)行動作的命令。這樣的架構(gòu)可以在一次前向計算中把視覺信息和語言指令結(jié)合起來,直接輸出機械動作或控制信號。

之所以會提出VLA模型,是因為傳統(tǒng)機器人系統(tǒng)會將視覺感知、語言理解和動作規(guī)劃拆成不同模塊,這種模塊化系統(tǒng)在復雜環(huán)境下很難協(xié)同,而且對場景變化的適應(yīng)性較差。VLA模型的端到端方法試圖讓感知、理解和行動融成一個整體,從而具備更自然、更接近人類操作的能力。

wKgZO2lMkcqAI-TTAAAR42n7O-I863.jpg

VLA模型里所謂的“理解”到底是什么?

很多人聽到AI具備“理解能力”,就會自然而然聯(lián)想到傳統(tǒng)程序里如“如果看到紅色球,就執(zhí)行抓取動作”這樣的規(guī)則判斷。這種規(guī)則式的思考可以讓行為動作有據(jù)可循,但VLA模型的理解并不是這種有明確規(guī)則的程序邏輯。恰恰相反,它沒有預定義的、用編程手寫的規(guī)則來指導每一次動作如何執(zhí)行。它的理解來自于大量示例學習出來的關(guān)聯(lián)模式。

換句話說,VLA模型的“理解”不是提前寫好的指令集,而是一種端到端學習得到的內(nèi)部能力。在訓練階段,模型會被喂入大規(guī)模的訓練數(shù)據(jù),這些數(shù)據(jù)是由很多真實或模擬場景組成的三元組,即視覺輸入+自然語言指令+與之對應(yīng)的動作軌跡。如在數(shù)據(jù)里可能有這樣的記錄,“圖像是桌面場景,語言是把杯子放進箱子,動作序列是機械手臂移動并完成抓取動作”。模型通過反復“看見+讀懂+對比正確動作”這樣的樣本,逐漸學習出視覺特征、語言表征和動作輸出之間的統(tǒng)計關(guān)系。

這種學習是統(tǒng)計意義上的,而不是邏輯規(guī)則式的。模型并沒有一個明確的代碼告訴它“紅色就是要抓取”,它只是從數(shù)據(jù)里看到在大量場景中,當出現(xiàn)“紅色球”和相關(guān)指令時,執(zhí)行某些動作是合適的。

從這個角度看,“理解”在VLA中更像是一種統(tǒng)計上的推斷能力,模型不是在判斷一個明確的規(guī)則是否滿足,而是在根據(jù)它已經(jīng)學到的多模態(tài)關(guān)聯(lián)進行預測。理解語言成分時,就類似人類語言模型的方式;理解視覺信息時,責利用視覺編碼器提取場景特征;動作的輸出則是在學習中形成的概率式策略。這種能力的組成是多種網(wǎng)絡(luò)層結(jié)構(gòu)和訓練方法協(xié)同的結(jié)果,而不是單個模塊的規(guī)則引擎決定的。

wKgZO2lMkcuAet_dAAASG3BOmsQ777.jpg

VLA模型內(nèi)部是怎么做到“理解”的?

為了更清楚地解釋VLA模型內(nèi)部“理解”是怎么發(fā)生的,可以把VLA模型拆成幾個部分來簡單理解。

在視覺模塊,計算機視覺網(wǎng)絡(luò)會把攝像頭捕獲的畫面轉(zhuǎn)換成一組高維特征,這些特征描述了場景里物體的位置、顏色、形狀等信息,而且這種轉(zhuǎn)換過程不是通過預定義規(guī)則實現(xiàn)的,而是通過視覺編碼器(比如Transformer或深度學習某些架構(gòu))學習得到的。這些視覺編碼器能夠把像素轉(zhuǎn)換成更抽象、對任務(wù)有意義的表示,這是一種由數(shù)據(jù)學習出來的視覺理解能力。

語言模塊和現(xiàn)在流行的大語言模型類似,它會把自然語言指令轉(zhuǎn)換成機器內(nèi)部可以處理的語義向量。語言模塊并不把指令拆成明確步驟,而是把語言映射成一種語義空間表示,在這個表示里任務(wù)目標、動作意圖等信息可以被進一步處理。這樣的語言編碼能力本身也是從大量文本和指令數(shù)據(jù)中學習出來的。

在視覺和語言的編碼結(jié)果都轉(zhuǎn)化成內(nèi)部表示之后,模型內(nèi)部有一個融合層或者共同的潛在空間表示,它把兩種不同模態(tài)的表示合并起來,使視覺信息和語言目標能夠結(jié)合成一個綜合的表示。在這一層,模型學習到視覺場景中的哪些對象和語義指令相關(guān)聯(lián)。就拿前文中機器人拿紅球的例子來簡單理解下,如果語言里提到了“紅色球”,視覺編碼器的特征里有一種與紅色物體相關(guān)的高維向量,模型就會將它們關(guān)聯(lián)起來。

融合后的內(nèi)部表示會傳到動作解碼器,這一步負責將綜合表達轉(zhuǎn)化成具體的動作命令。動作解碼器的輸出可以是機器人關(guān)節(jié)的控制信號、路徑規(guī)劃參數(shù)等。在訓練時模型已經(jīng)見過大量這樣的輸入—輸出對,所以它能學會在給定視覺和語言條件下如何輸出正確動作。這樣的輸出并不是由預設(shè)規(guī)則決定的,而是由模型內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)重計算得到的最優(yōu)動作預測。

上面說的整個過程看上去像一個黑箱,輸入是一張圖像和一句話,輸出是一組動作命令,中間有大量的矩陣乘法和非線性變換在發(fā)生,而這些都是統(tǒng)計學習得到的映射關(guān)系。

wKgZO2lMkcyAOQLxAAASAJELks8850.jpg

最后的話

回到最初的問題,VLA模型里的理解是不是基于一些預置的規(guī)則來指導行動?

答案是:不是。VLA模型內(nèi)部不依賴傳統(tǒng)意義上的預先寫好的規(guī)則。它的理解和動作生成能力來自于對大量視覺—語言—動作示例的學習過程。在學習結(jié)束后,模型能在看到新的圖像和語言指令時,通過內(nèi)部的潛在空間表示和映射關(guān)系生成合理的動作輸出,這種能力更像是一種通過數(shù)據(jù)訓練出來的模式匹配和策略生成能力,而不是靠寫好的規(guī)則集合。

這樣的設(shè)計讓VLA模型具備了更強的泛化能力和適應(yīng)性,但同時也意味著它不像規(guī)則驅(qū)動系統(tǒng)那樣容易解釋或明確驗證。這種“學習出來的理解”是一種統(tǒng)計形式的能力,這類模型有望在更多復雜任務(wù)中表現(xiàn)得越來越像我們所理解的“智能體”。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3751

    瀏覽量

    52093
  • Vla
    Vla
    +關(guān)注

    關(guān)注

    0

    文章

    20

    瀏覽量

    5893
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    2500 TOPS!特斯拉HW5智駕算力怪獸突擊,國產(chǎn)VLA火速進化

    芯片水平。與此同時,國內(nèi)車企如小鵬、理想等也在加速自身技術(shù)進化,推出基于VLA的新一代智能駕駛解決方案。 ? 未來,特斯拉能否憑借HW5與FSD技術(shù)“王者歸來”,而國內(nèi)車企又能否以VLA模型落地實現(xiàn)鞏固競爭優(yōu)勢?這場圍繞算力、算
    的頭像 發(fā)表于 06-20 09:05 ?8336次閱讀
    2500 TOPS!特斯拉HW5智駕算力怪獸突擊,國產(chǎn)<b class='flag-5'>VLA</b>火速進化

    已有VLM,自動駕駛為什么還要探索VLA?

    時(長尾場景),會因規(guī)則覆蓋不足而表現(xiàn)僵化。 隨著大語言模型和視覺語言模型(VLM)的爆發(fā),開發(fā)者們意識到,如果車輛能像人類一樣擁有常識,理解什么是“潮汐車道”,知道“救護車在后方鳴笛需要避讓”,那么自動駕駛的上限將
    的頭像 發(fā)表于 02-03 09:04 ?191次閱讀
    已有VLM,自動駕駛為什么還要探索<b class='flag-5'>VLA</b>?

    Nullmax VLA算法深度賦能黑芝麻智能華山A2000芯片

    CES 2026期間,AI科技公司 Nullmax 成功完成端到端 VLA(Vision-Language-Action)算法在黑芝麻華山 A2000上的深度適配與驗證。
    的頭像 發(fā)表于 01-09 15:20 ?336次閱讀

    黑芝麻智能華山A2000芯片與Nullmax VLA算法完成深度適配

    黑芝麻智能正式向全球市場推出的新一代高性能全場景智能駕駛芯片華山A2000,與 Nullmax VLA 算法完成深度適配,共同推動輔助駕駛技術(shù)向更高階演進!
    的頭像 發(fā)表于 01-07 14:50 ?357次閱讀

    全球首車搭載元戎啟行VLA模型,魏牌藍山智能進階版重磅上市

    近日,魏牌全新藍山智能進階版正式上市,成為全球首款搭載元戎啟行VLA(Vision-Language-Action)模型的量產(chǎn)車型。這不僅意味著VLA模型完成從技術(shù)研發(fā)到量產(chǎn)上車的閉環(huán)
    發(fā)表于 12-23 16:09 ?2291次閱讀
    全球首車搭載元戎啟行<b class='flag-5'>VLA</b><b class='flag-5'>模型</b>,魏牌藍山智能進階版重磅上市

    VLA與世界模型有什么不同?

    Language Action,VLA),另一些則致力于構(gòu)建并應(yīng)用世界模型(World Model)。這兩種路徑有什么不同? 什么是VLA,什么是世界模型 先說說
    的頭像 發(fā)表于 12-17 09:13 ?606次閱讀
    <b class='flag-5'>VLA</b>與世界<b class='flag-5'>模型</b>有什么不同?

    NVIDIA推動面向數(shù)字與物理AI的開源模型發(fā)展

    NVIDIA 發(fā)布一系列涵蓋語音、安全與輔助駕駛領(lǐng)域的全新 AI 工具,其中包括面向移動出行領(lǐng)域的行業(yè)級開源視覺-語言-動作推理模型(Reasoning VLA) NVIDIA DRIVE Alpamayo-R1。此外,一項新的獨立基準測試認可了 NVIDIA Nemot
    的頭像 發(fā)表于 12-13 09:50 ?1328次閱讀

    VLA能解決自動駕駛中的哪些問題?

    、語言表達和動作控制這三者整合到一個統(tǒng)一的模型框架中。 與傳統(tǒng)自動駕駛系統(tǒng)將感知、預測、規(guī)劃、控制拆解為多個獨立模塊的做法不同,VLA可以縮短“看見什么”和“如何行動”之間的鴻溝,構(gòu)建一個能直接將視覺輸入和語言描述映射到具體動作
    的頭像 發(fā)表于 11-25 08:53 ?478次閱讀
    <b class='flag-5'>VLA</b>能解決自動駕駛中的哪些問題?

    VLA和世界模型,誰才是自動駕駛的最優(yōu)解?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)發(fā)展,其實現(xiàn)路徑也呈現(xiàn)出兩種趨勢,一邊是以理想、小鵬、小米為代表的VLA(視覺—語言—行動模型路線;另一邊則是以華為、蔚為主導的世界
    的頭像 發(fā)表于 11-05 08:55 ?773次閱讀
    <b class='flag-5'>VLA</b>和世界<b class='flag-5'>模型</b>,誰才是自動駕駛的最優(yōu)解?

    自動駕駛上常提的VLA與世界模型有什么區(qū)別?

    自動駕駛中常提的VLA,全稱是Vision-Language-Action,直譯就是“視覺-語言-動作”。VLA的目標是把相機或傳感器看到的畫面、能理解和處理自然語言的大模型能力,和最終控制車輛
    的頭像 發(fā)表于 10-18 10:15 ?1144次閱讀

    量產(chǎn)交付超10萬輛!元戎啟行攜DeepRoute IO 2.0平臺及VLA模型亮相德國IAA

    IO 2.0及其自研的VLA(Vision-Language-Action)模型,并以“安全第一、量產(chǎn)先行”為戰(zhàn)略核心,持續(xù)推動海外市場拓展。 ? 德國IAA元戎啟行現(xiàn)場展位 ? 截至目前,元戎啟行
    發(fā)表于 09-09 10:09 ?3972次閱讀
    量產(chǎn)交付超10萬輛!元戎啟行攜DeepRoute IO 2.0平臺及<b class='flag-5'>VLA</b><b class='flag-5'>模型</b>亮相德國IAA

    基于大規(guī)模人類操作數(shù)據(jù)預訓練的VLA模型H-RDT

    近年來,機器人操作領(lǐng)域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集預訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統(tǒng)一訓練困難;現(xiàn)有大規(guī)模機器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得益于近年來VR
    的頭像 發(fā)表于 08-21 09:56 ?1087次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)預訓練的<b class='flag-5'>VLA</b><b class='flag-5'>模型</b>H-RDT

    VLA,是完全自動駕駛的必經(jīng)之路?

    電子發(fā)燒友網(wǎng)報道 (文/梁浩斌)最近,智駕領(lǐng)域又出現(xiàn)多個“新名詞”,比如蔚推出的NWM、多家車企和智駕供應(yīng)商都在宣傳的VLA。實際上,從各家的路線來看,隨著更大算力的芯片,比如小鵬、蔚來自研的智駕
    的頭像 發(fā)表于 06-18 00:06 ?9288次閱讀

    元戎啟行周光:VLA模型將于2025年第三季度量產(chǎn)

    2025年6月11日,元戎啟行CEO周光受邀出席2025年火山引擎Force原動力大會,宣布元戎啟行將攜手火山引擎,基于豆包大模型,共同研發(fā)VLA等前瞻技術(shù),打造物理世界的Agent。同時,周光宣布
    發(fā)表于 06-12 09:45 ?1322次閱讀
    元戎啟行周光:<b class='flag-5'>VLA</b><b class='flag-5'>模型</b>將于2025年第三季度量產(chǎn)

    HarmonyOS優(yōu)化應(yīng)用預置圖片資源加載耗時問題性能優(yōu)化

    轉(zhuǎn);對.jpg、.webp格式的圖片挑選其中被高頻使用或者對關(guān)鍵幀有關(guān)鍵影響的部分圖片進行轉(zhuǎn)換的策略。 四、總結(jié) 在開發(fā)應(yīng)用時,如果在應(yīng)用中預置一定數(shù)量的圖片,開發(fā)者可以考慮使用紋理壓縮的方法轉(zhuǎn)換并
    發(fā)表于 05-29 16:11