91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

VLA和世界模型在自動(dòng)駕駛中可以融合嗎?

智駕最前沿 ? 來(lái)源:智駕最前沿 ? 作者:智駕最前沿 ? 2026-01-13 09:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號(hào)]隨著VLA(視覺(jué)-語(yǔ)言-動(dòng)作模型)與世界模型在自動(dòng)駕駛領(lǐng)域的關(guān)注度日益提升,這兩項(xiàng)技術(shù)已成為眾多主機(jī)廠研發(fā)布局的重點(diǎn)方向。前者強(qiáng)調(diào)將感知、語(yǔ)義推理與動(dòng)作生成整合到同一個(gè)大模型中,以實(shí)現(xiàn)端到端的決策輸出;后者則致力于在系統(tǒng)內(nèi)部構(gòu)建對(duì)物理環(huán)境的動(dòng)態(tài)模擬與未來(lái)狀態(tài)推演,以提升對(duì)復(fù)雜場(chǎng)景的預(yù)見(jiàn)與應(yīng)對(duì)能力。那么,這兩項(xiàng)技術(shù)是否可以深度融合,從而讓自動(dòng)駕駛系統(tǒng)實(shí)現(xiàn)更智能、更可靠的駕駛行為呢?

wKgZO2llmUGAGyp_AAAQo00DEvw621.jpg

什么是VLA和世界模型

在自動(dòng)駕駛中,VLA(Vision-Language-Action)是一種端到端的方法,其核心在于將“感知”“理解”與“執(zhí)行”整合進(jìn)同一個(gè)大模型中統(tǒng)一處理。VLA系統(tǒng)通過(guò)攝像頭等傳感器獲取路面視覺(jué)信息,并將其轉(zhuǎn)化為高維特征。這些特征隨后被輸入到經(jīng)過(guò)擴(kuò)展的大型視覺(jué)-語(yǔ)言模型(這類(lèi)模型原本是為了文本和圖像理解設(shè)計(jì)的)中,從而在模型內(nèi)部完成語(yǔ)義推理,其不僅能識(shí)別車(chē)道線、行人、交通標(biāo)志等要素,還能進(jìn)一步分析行人意圖、交通規(guī)則優(yōu)先級(jí)等復(fù)雜情境。模型的輸出被直接映射為如轉(zhuǎn)向、加速或制動(dòng)等具體的控制指令。

VLA的特點(diǎn)在于,它將傳統(tǒng)自動(dòng)駕駛流程中的感知、預(yù)測(cè)、規(guī)劃與控制等多個(gè)模塊,融合為“看—想—做”一體的連貫過(guò)程,并試圖通過(guò)一個(gè)統(tǒng)一的網(wǎng)絡(luò)實(shí)現(xiàn)從圖像輸入到動(dòng)作輸出的完整決策鏈條。

wKgZPGllmUKAPc1QAACuLiNfWeo022.jpg

圖片源自:網(wǎng)絡(luò)

世界模型(WorldModel)則有著不同的核心設(shè)想。它不是單純地把感知和控制打包成一個(gè)模型,而是在系統(tǒng)內(nèi)部構(gòu)建一個(gè)對(duì)外部物理環(huán)境的“動(dòng)態(tài)模擬器”。換句話說(shuō),世界模型不僅能讓自動(dòng)駕駛系統(tǒng)看到當(dāng)前的環(huán)境,還能在內(nèi)部腦海里“演練”未來(lái)可能發(fā)生的場(chǎng)景。通過(guò)學(xué)習(xí)環(huán)境的動(dòng)態(tài)規(guī)律,從而預(yù)測(cè)其他車(chē)輛、行人、信號(hào)燈等會(huì)如何變化,為決策提供更深層次的支持。世界模型的本質(zhì)是在模型內(nèi)部建立對(duì)世界的理解和因果關(guān)系,而不是只對(duì)當(dāng)下圖像產(chǎn)生反應(yīng);它強(qiáng)調(diào)的是對(duì)未來(lái)的推演與預(yù)測(cè)能力。

wKgZO2llmUKAQE9vAAAR42n7O-I241.jpg

兩種方法的本質(zhì)差異

如果把自動(dòng)駕駛比作“人類(lèi)開(kāi)車(chē)”,傳統(tǒng)模塊化方案就是把駕駛?cè)蝿?wù)拆解為多個(gè)環(huán)節(jié),一部分負(fù)責(zé)看路(感知),另一部分分析交通狀況(理解與預(yù)測(cè)),再一部分做出決策(規(guī)劃),最后一部分執(zhí)行操作(控制)。VLA則是將這些環(huán)節(jié)盡可能地整合進(jìn)一個(gè)統(tǒng)一的大模型,讓它能夠從視覺(jué)輸入直接生成動(dòng)作輸出,并在模型內(nèi)部借助語(yǔ)言或語(yǔ)義推理進(jìn)行輔助決策。

wKgZPGllmUOAaygZAAB0E39pPWU608.jpg

模塊化與端到端的區(qū)別,圖片源自:網(wǎng)絡(luò)

世界模型的思路則是在系統(tǒng)內(nèi)部設(shè)置一塊看不見(jiàn)的“推演黑板”,持續(xù)模擬未來(lái)幾秒甚至更長(zhǎng)時(shí)間的路況變化,并將預(yù)測(cè)結(jié)果反饋給決策模塊,使自動(dòng)駕駛系統(tǒng)具備前瞻能力。

從技術(shù)角度看,VLA的核心是在一個(gè)統(tǒng)一的模型框架里融合感知、推理和動(dòng)作生成,它的優(yōu)勢(shì)在于能夠處理復(fù)雜的語(yǔ)義理解任務(wù),同時(shí)使輸出更加自然、直觀。世界模型的核心是在模型內(nèi)部建立對(duì)環(huán)境狀態(tài)和動(dòng)態(tài)規(guī)律的認(rèn)識(shí),從而支持基于當(dāng)前狀態(tài)進(jìn)行多步未來(lái)預(yù)測(cè)。

VLA和世界模型在側(cè)重點(diǎn)上有所不同,VLA偏向“從感知到行動(dòng)”的端到端映射和高層語(yǔ)義推理,世界模型則偏向環(huán)境動(dòng)態(tài)的模擬與未來(lái)情景的推演。VLA更接近“圖像→語(yǔ)言→動(dòng)作”的鏈?zhǔn)教幚砹鞒?,而世界模型更?cè)重于“內(nèi)部環(huán)境模型構(gòu)建與預(yù)測(cè)推演”。它們并非相互排斥的技術(shù)路線,而是分別強(qiáng)化了自動(dòng)駕駛系統(tǒng)的不同能力維度。

wKgZO2llmUOAIhwzAAASG3BOmsQ950.jpg

實(shí)際應(yīng)用中融合的可能性

VLA與世界模型并不是彼此割裂的技術(shù)路徑。就有技術(shù)顯示,可以將世界模型的預(yù)測(cè)能力與VLA的“感知—推理—?jiǎng)幼鳌蹦芰ο嘟Y(jié)合,使兩者形成互補(bǔ),從而提升自動(dòng)駕駛系統(tǒng)的整體性能。

一種典型的融合思路是讓VLA模型在學(xué)習(xí)動(dòng)作輸出的同時(shí),也使其學(xué)習(xí)預(yù)測(cè)環(huán)境狀態(tài)的變化,這本質(zhì)上就是把世界模型的能力嵌入到VLA的訓(xùn)練目標(biāo)中去。比如由中國(guó)科學(xué)院自動(dòng)化研究所等機(jī)構(gòu)提出的DriveVLA-W0框架,就提出利用世界模型來(lái)預(yù)測(cè)未來(lái)視圖,從而為VLA模型提供更密集的訓(xùn)練信號(hào)。

傳統(tǒng)VLA模型主要是通過(guò)采集到的動(dòng)作數(shù)據(jù)來(lái)監(jiān)督訓(xùn)練,由于動(dòng)作信號(hào)維度低、信息稀疏,監(jiān)督信號(hào)有限。引入世界模型后,模型還需預(yù)測(cè)未來(lái)圖像,這使其內(nèi)部必須學(xué)習(xí)環(huán)境動(dòng)態(tài)規(guī)律,從而提升了數(shù)據(jù)利用效率和模型泛化能力。該策略提升了模型對(duì)環(huán)境動(dòng)態(tài)的理解,同時(shí)保留了VLA的端到端輸出能力。

wKgZPGllmUSAK6RmAABx-ToVCWc901.jpg

圖片源自:網(wǎng)絡(luò)

此外,還有技術(shù)方案提出從架構(gòu)層面推動(dòng)兩者的統(tǒng)一,設(shè)計(jì)能夠同時(shí)涵蓋視覺(jué)、語(yǔ)言、動(dòng)作與動(dòng)態(tài)預(yù)測(cè)的融合模型。這類(lèi)架構(gòu)通過(guò)共享內(nèi)部表示讓系統(tǒng)既具備良好的場(chǎng)景理解和動(dòng)作規(guī)劃能力,又能預(yù)測(cè)未來(lái)狀態(tài),這類(lèi)融合模型在一些仿真測(cè)試或者機(jī)器人控制任務(wù)中表現(xiàn)出比單一方法更優(yōu)的性能。雖然這些研究大多還處于實(shí)驗(yàn)階段,但它們確實(shí)證明了VLA與世界模型在原理層面存在結(jié)合的可能性。

wKgZO2llmUSAf4w_AAASAJELks8586.jpg

為什么融合能帶來(lái)優(yōu)勢(shì)

自動(dòng)駕駛的核心難點(diǎn)之一就是環(huán)境的復(fù)雜性和不確定性。駕駛環(huán)境瞬息萬(wàn)變,不同車(chē)輛、行人、信號(hào)燈以及道路情況都會(huì)影響決策。單純依賴(lài)當(dāng)前時(shí)刻的感知進(jìn)行決策,難以應(yīng)對(duì)未來(lái)幾秒內(nèi)可能發(fā)生的復(fù)雜變化,世界模型所強(qiáng)調(diào)的內(nèi)部預(yù)測(cè)優(yōu)勢(shì)就在此處體現(xiàn)。世界模型讓系統(tǒng)不只是“看到現(xiàn)在”,還能“想象接下來(lái)可能發(fā)生什么”,從而支持更穩(wěn)健的規(guī)劃。

此外,自動(dòng)駕駛中的語(yǔ)義理解和高級(jí)推理也至關(guān)重要。車(chē)輛需要理解交通標(biāo)志、判斷行人意圖、結(jié)合交通規(guī)則等,這些屬于更高層的認(rèn)知任務(wù)。VLA在這方面有優(yōu)勢(shì),因?yàn)樗柚笮鸵曈X(jué)-語(yǔ)言模型的推理能力,可以把視覺(jué)輸入映射到語(yǔ)義空間,使自動(dòng)駕駛系統(tǒng)具備更強(qiáng)的抽象理解能力。

如果把世界模型比作一個(gè)能預(yù)測(cè)未來(lái)的“內(nèi)部仿真器”,把VLA比作一個(gè)能理解場(chǎng)景語(yǔ)義和規(guī)則的“大腦”,那么二者結(jié)合就能讓自動(dòng)駕駛系統(tǒng)既能預(yù)判未來(lái),又能做出基于語(yǔ)義理解的合適動(dòng)作。這樣的融合可以讓系統(tǒng)在面對(duì)復(fù)雜場(chǎng)景時(shí)做出更穩(wěn)健、更可靠的判斷和控制。

wKgZPGllmUWAcFYhAAARwcz1hbg504.jpg

技術(shù)融合的難點(diǎn)與挑戰(zhàn)

想把世界模型引入VLA,訓(xùn)練過(guò)程就需要更多計(jì)算資源和數(shù)據(jù)支持。世界模型的訓(xùn)練依賴(lài)于從海量視頻序列中學(xué)習(xí)環(huán)境動(dòng)態(tài)規(guī)律,通過(guò)預(yù)測(cè)未來(lái)幀或狀態(tài)來(lái)驅(qū)動(dòng)內(nèi)部表征的形成。這就需要極大規(guī)模的視頻數(shù)據(jù)與強(qiáng)大的計(jì)算資源支撐,而自動(dòng)駕駛系統(tǒng)本身的訓(xùn)練已對(duì)資源有很高要求,二者的結(jié)合將進(jìn)一步提高訓(xùn)練門(mén)檻。

融合后的模型結(jié)構(gòu)也會(huì)變得更復(fù)雜。在VLA里面,原本就有感知和推理兩個(gè)大塊,現(xiàn)在又要增加世界模型部分的動(dòng)態(tài)預(yù)測(cè),這就要求內(nèi)部表示既要適合高層語(yǔ)義任務(wù),又要能支持未來(lái)預(yù)測(cè)。這兩種任務(wù)對(duì)內(nèi)部表征的要求并不完全一致,這無(wú)疑增加了設(shè)計(jì)的難度。

實(shí)時(shí)性和車(chē)載部署也是難點(diǎn)。在實(shí)驗(yàn)室里跑大模型并融合世界模型預(yù)測(cè)可能效果很好,但在實(shí)際車(chē)輛上實(shí)時(shí)運(yùn)行時(shí)會(huì)有嚴(yán)格的延遲約束和算力限制。這就要求在模型設(shè)計(jì)時(shí)就考慮如何壓縮模型、如何在算力受限的環(huán)境中部署這種融合策略,否則就算理論上可行,在工程上也很難落地。

wKgZPGllmUaAUf_cAAATCLDSk7w242.jpg

最后的話

VLA與世界模型雖然側(cè)重點(diǎn)不同,卻能為自動(dòng)駕駛系統(tǒng)提供不同的能力。VLA主要解決系統(tǒng)能否在復(fù)雜交通場(chǎng)景中“看懂語(yǔ)義并做出合理動(dòng)作”的問(wèn)題;而世界模型則彌補(bǔ)了系統(tǒng)能否深入理解環(huán)境動(dòng)態(tài)規(guī)律,在風(fēng)險(xiǎn)發(fā)生前進(jìn)行預(yù)測(cè)與推演的能力。

將這兩種能力融入同一架構(gòu)中,自動(dòng)駕駛的決策將不再僅依賴(lài)于當(dāng)前時(shí)刻的感知結(jié)果,而是建立在對(duì)場(chǎng)景語(yǔ)義、動(dòng)態(tài)演變與未來(lái)預(yù)期的綜合理解之上。這種轉(zhuǎn)變意味著自動(dòng)駕駛正從“高性能感知系統(tǒng)”邁向真正具備環(huán)境理解和因果推理能力的智能體,這才是它走向高可靠性和規(guī)?;涞厮仨毧邕^(guò)的一道門(mén)檻。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Vla
    Vla
    +關(guān)注

    關(guān)注

    0

    文章

    20

    瀏覽量

    5898
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    793

    文章

    14887

    瀏覽量

    179992
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    未來(lái)已來(lái),多傳感器融合感知是自動(dòng)駕駛破局的關(guān)鍵

    駕駛的關(guān)鍵的是具備人類(lèi)的感知能力,多傳感器融合感知正是自動(dòng)駕駛破局的關(guān)鍵。昱感微的雷視一體多傳感器融合方案就好像一雙比人眼更敏銳的眼睛,可以
    發(fā)表于 04-11 10:26

    FPGA自動(dòng)駕駛領(lǐng)域有哪些應(yīng)用?

    是FPGA自動(dòng)駕駛領(lǐng)域的主要應(yīng)用: 一、感知算法加速 圖像處理:自動(dòng)駕駛需要通過(guò)攝像頭獲取并識(shí)別道路信息和行駛環(huán)境,這涉及到大量的圖像處理任務(wù)。FPGA
    發(fā)表于 07-29 17:09

    FPGA自動(dòng)駕駛領(lǐng)域有哪些優(yōu)勢(shì)?

    FPGA(Field-Programmable Gate Array,現(xiàn)場(chǎng)可編程門(mén)陣列)自動(dòng)駕駛領(lǐng)域具有顯著的優(yōu)勢(shì),這些優(yōu)勢(shì)使得FPGA成為自動(dòng)駕駛技術(shù)不可或缺的一部分。以下是FP
    發(fā)表于 07-29 17:11

    【話題】特斯拉首起自動(dòng)駕駛致命車(chē)禍,自動(dòng)駕駛的冬天來(lái)了?

    自動(dòng)駕駛技術(shù)已經(jīng)有足夠積累,雖然還不完美無(wú)缺,但是可以投入商用,科技都是使用完善的,不能一遭被蛇咬,十年怕井繩,難道發(fā)生一次空難之后,以后飛機(jī)就停飛啦?技術(shù)流朋友,更加關(guān)注問(wèn)題本身
    發(fā)表于 07-05 11:14

    自動(dòng)駕駛真的會(huì)來(lái)嗎?

    自動(dòng)駕駛原理示意GIF圖  特斯拉自動(dòng)駕駛死亡事故給全世界帶來(lái)了極大的震驚,但這并不意味著基于壞消息之上的關(guān)注全然沒(méi)有正面意義?! ?b class='flag-5'>在接受新浪科技采訪
    發(fā)表于 07-21 09:00

    自動(dòng)駕駛的到來(lái)

    的Telematics收發(fā)芯片,非常適合V2V及V2X等相關(guān)應(yīng)用?! ∠啾扔趥鹘y(tǒng)的底盤(pán)、發(fā)動(dòng)機(jī)等傳統(tǒng)汽車(chē)技術(shù),自動(dòng)駕駛更多的技術(shù)集中電子領(lǐng)域,而且核心技術(shù)并沒(méi)有被跨國(guó)車(chē)廠或Tier1所壟斷。并且
    發(fā)表于 06-08 15:25

    UWB主動(dòng)定位系統(tǒng)自動(dòng)駕駛的應(yīng)用實(shí)踐

    的激光雷達(dá)傳感器、毫米波雷達(dá)加到車(chē)上后,可以實(shí)現(xiàn)不再依靠人腦控制車(chē)輛,開(kāi)始進(jìn)入自動(dòng)駕駛階段。關(guān)于自動(dòng)駕駛的分級(jí),目前國(guó)際上普遍認(rèn)可的是SAE(國(guó)際汽車(chē)工程師協(xié)會(huì))的標(biāo)準(zhǔn),分為L(zhǎng)0-L5,共六級(jí),SAE
    發(fā)表于 12-14 17:30

    自動(dòng)駕駛汽車(chē)的定位技術(shù)

    解決“我在哪兒”的問(wèn)題,并且自動(dòng)駕駛需要的是厘米級(jí)定位。目前自動(dòng)駕駛的技術(shù)基本上都源自機(jī)器人,自動(dòng)駕駛汽車(chē)可以看做是輪式機(jī)器人外加一個(gè)舒適的沙發(fā)組成。機(jī)器人系統(tǒng)
    發(fā)表于 05-09 04:41

    如何讓自動(dòng)駕駛更加安全?

    最近,國(guó)內(nèi)多個(gè)城市開(kāi)始發(fā)放自動(dòng)駕駛的開(kāi)放道路測(cè)試牌照,意味著自動(dòng)駕駛的汽車(chē)可以公共道路上進(jìn)行測(cè)試。不過(guò),駕駛安全性仍是社會(huì)關(guān)注的焦點(diǎn),美國(guó)
    發(fā)表于 05-13 00:26

    自動(dòng)駕駛中常提的世界模型是個(gè)啥?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)的不斷成熟,車(chē)輛需要在復(fù)雜多變的道路環(huán)境安全地行駛,這就要求系統(tǒng)不僅能“看見(jiàn)”周?chē)?b class='flag-5'>世界,還要能“理解”和“推測(cè)”未來(lái)的變化。世界
    的頭像 發(fā)表于 06-24 08:53 ?1132次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b>中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是個(gè)啥?

    自動(dòng)駕駛上常提的VLA世界模型有什么區(qū)別?

    自動(dòng)駕駛中常提的VLA,全稱(chēng)是Vision-Language-Action,直譯就是“視覺(jué)-語(yǔ)言-動(dòng)作”。VLA的目標(biāo)是把相機(jī)或傳感器看到的畫(huà)面、能理解和處理自然語(yǔ)言的大模型能力,和最
    的頭像 發(fā)表于 10-18 10:15 ?1159次閱讀

    VLA世界模型,誰(shuí)才是自動(dòng)駕駛的最優(yōu)解?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)發(fā)展,其實(shí)現(xiàn)路徑也呈現(xiàn)出兩種趨勢(shì),一邊是以理想、小鵬、小米為代表的VLA(視覺(jué)—語(yǔ)言—行動(dòng))模型路線;另一邊則是以華為、蔚來(lái)為主導(dǎo)的世界
    的頭像 發(fā)表于 11-05 08:55 ?793次閱讀
    <b class='flag-5'>VLA</b>和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,誰(shuí)才是<b class='flag-5'>自動(dòng)駕駛</b>的最優(yōu)解?

    VLA能解決自動(dòng)駕駛的哪些問(wèn)題?

    、語(yǔ)言表達(dá)和動(dòng)作控制這三者整合到一個(gè)統(tǒng)一的模型框架。 與傳統(tǒng)自動(dòng)駕駛系統(tǒng)將感知、預(yù)測(cè)、規(guī)劃、控制拆解為多個(gè)獨(dú)立模塊的做法不同,VLA可以
    的頭像 發(fā)表于 11-25 08:53 ?497次閱讀
    <b class='flag-5'>VLA</b>能解決<b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中</b>的哪些問(wèn)題?

    VLA世界模型有什么不同?

    [首發(fā)于智駕最前沿微信公眾號(hào)]當(dāng)前自動(dòng)駕駛行業(yè),各車(chē)企的技術(shù)路徑普遍選擇了單車(chē)智能方向。而在實(shí)際落地過(guò)程,不同企業(yè)選擇了差異化的技術(shù)實(shí)現(xiàn)方式,部分車(chē)企側(cè)重于視覺(jué)—語(yǔ)言—?jiǎng)幼?b class='flag-5'>模型(Vision
    的頭像 發(fā)表于 12-17 09:13 ?638次閱讀
    <b class='flag-5'>VLA</b>與<b class='flag-5'>世界</b><b class='flag-5'>模型</b>有什么不同?

    如何構(gòu)建適合自動(dòng)駕駛世界模型?

    提出的。那世界模型自動(dòng)駕駛落地的正解嗎? 什么是世界模型世界
    的頭像 發(fā)表于 02-18 08:14 ?1.1w次閱讀
    如何構(gòu)建適合<b class='flag-5'>自動(dòng)駕駛</b>的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>?