91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自動(dòng)駕駛中常提的VLA是個(gè)啥?

智駕最前沿 ? 來(lái)源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-06-18 09:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)落地,很多新技術(shù)或在其他領(lǐng)域被使用的技術(shù)也在自動(dòng)駕駛行業(yè)中得到了實(shí)踐,VLA就是其中一項(xiàng),尤其是隨著端到端大模型的提出,VLA在自動(dòng)駕駛中的使用更加普遍。那VLA到底是個(gè)啥?它對(duì)于自動(dòng)駕駛行業(yè)來(lái)說(shuō)有何作用?

VLA全稱為“Vision-Language-Action”,即視覺(jué)-語(yǔ)言-動(dòng)作模型,其核心思想是將視覺(jué)感知、語(yǔ)言理解與動(dòng)作決策端到端融合,在一個(gè)統(tǒng)一的大模型中完成從環(huán)境觀察到控制指令輸出的全過(guò)程。與傳統(tǒng)自動(dòng)駕駛系統(tǒng)中感知、規(guī)劃、控制模塊化分工的思路不同,VLA模型通過(guò)大規(guī)模數(shù)據(jù)驅(qū)動(dòng),實(shí)現(xiàn)了“圖像輸入、指令輸出”的閉環(huán)映射,有望大幅提高系統(tǒng)的泛化能力與場(chǎng)景適應(yīng)性。

wKgZPGhSFGGADiWsAABhun9Lczk192.jpg

VLA最早由GoogleDeepMind于2023年在機(jī)器人領(lǐng)域提出,旨在解決“視覺(jué)-語(yǔ)言-動(dòng)作”三者協(xié)同的智能體控制問(wèn)題。DeepMind的首個(gè)VLA模型通過(guò)將視覺(jué)編碼器與語(yǔ)言編碼器與動(dòng)作解碼器結(jié)合,實(shí)現(xiàn)了從攝像頭圖像和文本指令到物理動(dòng)作的直接映射。這一技術(shù)不僅在機(jī)器人操作上取得了突破,也為智能駕駛場(chǎng)景引入了全新的端到端思路。

在自動(dòng)駕駛領(lǐng)域,感知技術(shù)通常由雷達(dá)、激光雷達(dá)、攝像頭等多種傳感器負(fù)責(zé)感知,感知結(jié)果經(jīng)過(guò)目標(biāo)檢測(cè)、語(yǔ)義分割、軌跡預(yù)測(cè)、行為規(guī)劃等一系列模塊處理,最后由控制器下發(fā)方向盤和油門等動(dòng)作指令。整個(gè)流程雖條理清晰,卻存在模塊間誤差累積、規(guī)則設(shè)計(jì)復(fù)雜且難以覆蓋所有極端場(chǎng)景的短板。VLA模型正是在此背景下應(yīng)運(yùn)而生,它舍棄了中間的手工設(shè)計(jì)算法,直接用統(tǒng)一的神經(jīng)網(wǎng)絡(luò)從多模態(tài)輸入中學(xué)習(xí)最優(yōu)控制策略,從而簡(jiǎn)化了系統(tǒng)架構(gòu),提高了數(shù)據(jù)利用效率。

wKgZO2hSFGKAL_qDAACtwrr_t_Y075.jpg

VLA模型通常由四個(gè)關(guān)鍵模塊構(gòu)成。第一是視覺(jué)編碼器,用于對(duì)攝像頭或激光雷達(dá)等傳感器采集的圖像和點(diǎn)云數(shù)據(jù)進(jìn)行特征提??;第二是語(yǔ)言編碼器,通過(guò)大規(guī)模預(yù)訓(xùn)練的語(yǔ)言模型,理解導(dǎo)航指令、交通規(guī)則或高層策略;第三是跨模態(tài)融合層,將視覺(jué)和語(yǔ)言特征進(jìn)行對(duì)齊和融合,構(gòu)建統(tǒng)一的環(huán)境理解;第四是動(dòng)作解碼器或策略模塊,基于融合后的多模態(tài)表示生成具體的控制指令,如轉(zhuǎn)向角度、加減速命令等。

在視覺(jué)編碼器部分,VLA模型一般采用卷積神經(jīng)網(wǎng)絡(luò)或視覺(jué)大模型(VisionTransformer)對(duì)原始像素進(jìn)行深度特征抽??;同時(shí),為了增強(qiáng)對(duì)三維場(chǎng)景的理解,部分研究引入三維空間編碼器,將多視角圖像或點(diǎn)云映射到統(tǒng)一的三維特征空間中。這些技術(shù)使VLA在處理復(fù)雜道路環(huán)境、行人辨識(shí)和物體追蹤上擁有較傳統(tǒng)方法更強(qiáng)的表現(xiàn)力。

語(yǔ)言編碼器則是VLA與傳統(tǒng)端到端駕駛模型的最大差異所在。通過(guò)接入大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,VLA能夠理解自然語(yǔ)言形式的導(dǎo)航指令(如“前方在第二個(gè)紅綠燈右轉(zhuǎn)”)或高層安全策略(如“當(dāng)檢測(cè)到行人時(shí)務(wù)必減速至5公里/小時(shí)以下”),并將這些理解融入決策過(guò)程。這種跨模態(tài)理解能力不僅提升了系統(tǒng)的靈活性,也為人車交互提供了新的可能。

跨模態(tài)融合層在VLA中承擔(dān)著“粘合劑”作用,它需要設(shè)計(jì)高效的對(duì)齊算法,使視覺(jué)與語(yǔ)言特征在同一語(yǔ)義空間內(nèi)進(jìn)行交互。一些方案利用自注意力機(jī)制(Self-Attention)實(shí)現(xiàn)特征間的深度融合,另一些方案則結(jié)合圖神經(jīng)網(wǎng)絡(luò)或Transformer結(jié)構(gòu)進(jìn)行多模態(tài)對(duì)齊。這些方法的目標(biāo)都是構(gòu)建一個(gè)統(tǒng)一表征,以支持后續(xù)更準(zhǔn)確的動(dòng)作生成。

動(dòng)作解碼器或策略模塊通常基于強(qiáng)化學(xué)習(xí)或監(jiān)督學(xué)習(xí)框架訓(xùn)練。VLA利用融合后的多模態(tài)特征,直接預(yù)測(cè)如轉(zhuǎn)向角度、加速度和制動(dòng)壓力等連續(xù)控制信號(hào)。這一過(guò)程省去了傳統(tǒng)方案中復(fù)雜的規(guī)則引擎和多階段優(yōu)化,使整個(gè)系統(tǒng)在端到端訓(xùn)練中獲得了更優(yōu)的全局性能。但同時(shí)也帶來(lái)了可解釋性不足、安全驗(yàn)證難度增大等挑戰(zhàn)。

VLA模型的最大優(yōu)勢(shì)在于其強(qiáng)大的場(chǎng)景泛化能力與上下文推理能力。由于模型在大規(guī)模真實(shí)或仿真數(shù)據(jù)上學(xué)習(xí)了豐富的多模態(tài)關(guān)聯(lián),它能在復(fù)雜交叉路口、弱光環(huán)境或突發(fā)障礙物出現(xiàn)時(shí),更迅速地做出合理決策。此外,融入語(yǔ)言理解后,VLA可以根據(jù)指令靈活調(diào)整駕駛策略,實(shí)現(xiàn)更自然的人機(jī)協(xié)同駕駛體驗(yàn)。

國(guó)內(nèi)外多家企業(yè)已開始將VLA思想應(yīng)用于智能駕駛研發(fā)。DeepMind的RT-2模型在機(jī)器人控制上展示了端到端視覺(jué)-語(yǔ)言-動(dòng)作融合的潛力,而元戎啟行公開提出的VLA模型,被其定義為“端到端2.0版本”,元戎啟行CEO周光表示“這套系統(tǒng)上來(lái)以后城區(qū)智駕才能真正達(dá)到好用的狀態(tài)”。智平方在機(jī)器人領(lǐng)域推出的GOVLA模型,也展示了全身協(xié)同與長(zhǎng)程推理的先進(jìn)能力,為未來(lái)智能駕駛提供了新的參考。

VLA雖然給自動(dòng)駕駛行業(yè)提出了新的可能,但實(shí)際應(yīng)用依舊面臨很多挑戰(zhàn)。首先是模型可解釋性不足,作為“黑盒子”系統(tǒng),很難逐步排查在邊緣場(chǎng)景下的決策失誤,給安全驗(yàn)證帶來(lái)難度。其次,端到端訓(xùn)練對(duì)數(shù)據(jù)質(zhì)量和數(shù)量要求極高,還需構(gòu)建覆蓋多種交通場(chǎng)景的高保真仿真環(huán)境。另外,計(jì)算資源消耗大、實(shí)時(shí)性優(yōu)化難度高,也是VLA商用化必須克服的技術(shù)壁壘。

為了解決上述問(wèn)題,也正在探索多種技術(shù)路徑。如有通過(guò)引入可解釋性模塊或后驗(yàn)可視化工具,對(duì)決策過(guò)程進(jìn)行透明化;還有利用Diffusion模型對(duì)軌跡生成進(jìn)行優(yōu)化,確??刂浦噶畹钠交耘c穩(wěn)定性。同時(shí),將VLA與傳統(tǒng)規(guī)則引擎或模型預(yù)測(cè)控制(MPC)結(jié)合,以混合架構(gòu)提高安全冗余和系統(tǒng)魯棒性也成為熱門方向。

未來(lái),隨著大模型技術(shù)、邊緣計(jì)算和車載硬件的持續(xù)進(jìn)步,VLA有望在自動(dòng)駕駛領(lǐng)域扮演更加核心的角色。它不僅能為城市復(fù)雜道路提供更智能的駕駛方案,還可擴(kuò)展至車隊(duì)協(xié)同、遠(yuǎn)程遙控及人機(jī)交互等多種應(yīng)用場(chǎng)景。智駕最前沿以為,“視覺(jué)-語(yǔ)言-動(dòng)作”一體化將成為自動(dòng)駕駛技術(shù)的主流方向,推動(dòng)智能出行進(jìn)入新的“端到端2.0”時(shí)代。

VLA作為一種端到端多模態(tài)融合方案,通過(guò)將視覺(jué)、語(yǔ)言和動(dòng)作三大要素集成到同一模型中,為自動(dòng)駕駛系統(tǒng)帶來(lái)了更強(qiáng)的泛化能力和更高的交互靈活性。盡管仍需解決可解釋性、安全驗(yàn)證與算力優(yōu)化等挑戰(zhàn),但其革命性的技術(shù)框架無(wú)疑為未來(lái)智能駕駛的發(fā)展指明了方向。隨著業(yè)界不斷積累實(shí)踐經(jīng)驗(yàn)、優(yōu)化算法與完善安全體系,VLA有望成為自動(dòng)駕駛領(lǐng)域的“下一代技術(shù)基石”。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Vla
    Vla
    +關(guān)注

    關(guān)注

    0

    文章

    20

    瀏覽量

    5896
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    793

    文章

    14887

    瀏覽量

    179979
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    自動(dòng)駕駛中常的魯棒性是個(gè)?

    隨著自動(dòng)駕駛技術(shù)的快速發(fā)展,魯棒性(Robustness)成為評(píng)價(jià)自動(dòng)駕駛系統(tǒng)的重要指標(biāo)之一。很多小伙伴也會(huì)在自動(dòng)駕駛相關(guān)的介紹中,對(duì)某些功能用魯棒性進(jìn)行描述。一個(gè)魯棒的系統(tǒng)能夠在復(fù)雜
    的頭像 發(fā)表于 01-02 16:32 ?9081次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的魯棒性是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?

    自動(dòng)駕駛中常的SLAM到底是個(gè)?

    ?這兩個(gè)問(wèn)題。目前,自動(dòng)駕駛技術(shù)主要依賴高精地圖和RTK(實(shí)時(shí)動(dòng)態(tài)定位)系統(tǒng)完成高精度定位。然而,這種方法的實(shí)現(xiàn)成本高昂,需要依賴于完善的基礎(chǔ)設(shè)施,且在動(dòng)態(tài)環(huán)境中適應(yīng)性不足。為此自動(dòng)駕駛工程師提出了另一種更具靈活性和
    的頭像 發(fā)表于 11-21 15:17 ?2902次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的SLAM到底是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?

    自動(dòng)駕駛大模型中常的Token是個(gè)?對(duì)自動(dòng)駕駛有何影響?

    、多模態(tài)傳感器數(shù)據(jù)的實(shí)時(shí)處理與決策。在這一過(guò)程中,大模型以其強(qiáng)大的特征提取、信息融合和預(yù)測(cè)能力為自動(dòng)駕駛系統(tǒng)提供了有力支持。而在大模型的中,有一個(gè)“Token”的概念,有些人看到后或許會(huì)問(wèn): Token是個(gè)
    的頭像 發(fā)表于 03-28 09:16 ?1343次閱讀

    自動(dòng)駕駛中常的“NOA”是個(gè)?

    近年來(lái),自動(dòng)駕駛技術(shù)發(fā)展迅速,業(yè)界不斷探索如何在復(fù)雜交通場(chǎng)景中實(shí)現(xiàn)真正的無(wú)人駕駛。城市NOA作為自動(dòng)駕駛的一項(xiàng)前沿技術(shù),正成為各大廠商相互爭(zhēng)奪的關(guān)鍵技術(shù)。 何為NOA? NOA,全稱
    的頭像 發(fā)表于 04-09 09:03 ?3105次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“NOA”是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?

    自動(dòng)駕駛中常的“點(diǎn)云”是個(gè)?

    ?對(duì)自動(dòng)駕駛有何影響? 點(diǎn)云是個(gè)? 點(diǎn)云(Point Cloud)是一種在三維空間中由大量離散點(diǎn)組成的數(shù)據(jù)集合,每個(gè)點(diǎn)包含自身的笛卡爾坐標(biāo)(X、Y、Z),并可附帶顏色、強(qiáng)度、時(shí)間戳
    的頭像 發(fā)表于 05-21 09:04 ?1150次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“點(diǎn)云”是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?

    自動(dòng)駕駛中常的HMI是個(gè)?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛汽車領(lǐng)域,HMI(Human–Machine Interface,人機(jī)交互界面)正成為很多車企相互競(jìng)爭(zhēng)的一大領(lǐng)域。之所以如此,是因?yàn)樵谲囕v從“人控”過(guò)渡到“機(jī)
    的頭像 發(fā)表于 06-22 13:21 ?2346次閱讀

    自動(dòng)駕駛中常的世界模型是個(gè)?

    對(duì)外部環(huán)境進(jìn)行抽象和建模的技術(shù),讓自動(dòng)駕駛系統(tǒng)在一個(gè)簡(jiǎn)潔的內(nèi)部“縮影”里,對(duì)真實(shí)世界進(jìn)行描述與預(yù)測(cè),從而為感知、決策和規(guī)劃等關(guān)鍵環(huán)節(jié)提供有力支持。 什么是世界模型? 我們不妨先把“世界模型”想象成一種“數(shù)字化的地
    的頭像 發(fā)表于 06-24 08:53 ?1132次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的世界模型是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?

    自動(dòng)駕駛中常的慣性導(dǎo)航系統(tǒng)是個(gè)?可以不用嗎?

    每次提到自動(dòng)駕駛硬件時(shí),大家可能第一反應(yīng)想到的是激光雷達(dá)、車載攝像頭、毫米波雷達(dá)等,但想要讓自動(dòng)駕駛車輛實(shí)際落地,有一個(gè)硬件也非常重要,那就是慣性導(dǎo)航系統(tǒng)。在很多討論自動(dòng)駕駛技術(shù)的內(nèi)容
    的頭像 發(fā)表于 07-24 18:12 ?1945次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的慣性導(dǎo)航系統(tǒng)是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?可以不用嗎?

    自動(dòng)駕駛中常的RTK是個(gè)

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛關(guān)鍵技術(shù)時(shí),經(jīng)常會(huì)聽到一個(gè)技術(shù),那就是RTK,很多人看到RTK后一定會(huì)想,這到底是個(gè)技術(shù)?為啥這個(gè)技術(shù)很少在發(fā)布會(huì)上看到,但對(duì)于
    的頭像 發(fā)表于 08-10 10:35 ?1142次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的RTK是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?

    自動(dòng)駕駛中常的硬件在環(huán)是個(gè)

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛技術(shù)時(shí),經(jīng)常會(huì)提及一個(gè)技術(shù),那就是硬件在環(huán),所謂的硬件在環(huán)是個(gè)?對(duì)于自動(dòng)駕駛來(lái)說(shuō)有
    的頭像 發(fā)表于 08-14 08:54 ?1258次閱讀

    自動(dòng)駕駛中常的ODD是個(gè)?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛中,經(jīng)常會(huì)聽到一個(gè)概念,那就是ODD。所謂ODD,全稱為Operational Design Domain,中文常譯為“運(yùn)行設(shè)計(jì)域”或者“作業(yè)域”。直觀一點(diǎn)
    的頭像 發(fā)表于 09-22 09:04 ?908次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的ODD是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?

    自動(dòng)駕駛中常的“專家數(shù)據(jù)”是個(gè)?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛時(shí),經(jīng)常會(huì)聽到一個(gè)概念,那便是“專家數(shù)據(jù)”。專家數(shù)據(jù),說(shuō)白了就是“按理應(yīng)該這么做”的那類示范數(shù)據(jù)。它不是隨機(jī)抓來(lái)的日志,也不是隨便標(biāo)注的標(biāo)簽,而是來(lái)源可靠
    的頭像 發(fā)表于 10-09 09:33 ?629次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“專家數(shù)據(jù)”是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?

    自動(dòng)駕駛上常VLA與世界模型有什么區(qū)別?

    自動(dòng)駕駛中常VLA,全稱是Vision-Language-Action,直譯就是“視覺(jué)-語(yǔ)言-動(dòng)作”。VLA的目標(biāo)是把相機(jī)或傳感器看到的
    的頭像 發(fā)表于 10-18 10:15 ?1158次閱讀

    自動(dòng)駕駛中常的“強(qiáng)化學(xué)習(xí)”是個(gè)?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛時(shí),有些方案中會(huì)提到“強(qiáng)化學(xué)習(xí)(Reinforcement Learning,簡(jiǎn)稱RL)”,強(qiáng)化學(xué)習(xí)是一類讓機(jī)器通過(guò)試錯(cuò)來(lái)學(xué)會(huì)做決策的技術(shù)。簡(jiǎn)單理解
    的頭像 發(fā)表于 10-23 09:00 ?689次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“強(qiáng)化學(xué)習(xí)”是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?

    VLA能解決自動(dòng)駕駛中的哪些問(wèn)題?

    、語(yǔ)言表達(dá)和動(dòng)作控制這三者整合到一個(gè)統(tǒng)一的模型框架中。 與傳統(tǒng)自動(dòng)駕駛系統(tǒng)將感知、預(yù)測(cè)、規(guī)劃、控制拆解為多個(gè)獨(dú)立模塊的做法不同,VLA可以縮短“看見什么”和“如何行動(dòng)”之間的鴻溝,構(gòu)建一個(gè)
    的頭像 發(fā)表于 11-25 08:53 ?496次閱讀
    <b class='flag-5'>VLA</b>能解決<b class='flag-5'>自動(dòng)駕駛</b>中的哪些問(wèn)題?