91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自動駕駛中常提的離線強化學習是什么?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2026-02-07 09:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號]在之前談及自動駕駛模型學習時,詳細聊過強化學習的作用,由于強化學習能讓大模型通過交互學到策略,不需要固定的規(guī)則,從而給自動駕駛的落地創(chuàng)造了更多可能。

wKgZPGmGk5SAahjzAAA4H4eb0K4593.jpg

強化學習示意圖,圖片源自:網(wǎng)絡(luò)

但強化學習本身是需要不斷試錯的,如果采用這種學習方式在真實道路中不斷嘗試,一定會導(dǎo)致不可控的事故。于是就有人提出一種猜測,能不能利用已經(jīng)存在的大量行駛?cè)罩尽?a target="_blank">仿真記錄和人類駕駛數(shù)據(jù),在訓(xùn)練過程中完全不與真實環(huán)境交互,從而訓(xùn)練出一個靠譜的決策模塊?

離線強化學習就是基于此提出的方案。離線強化學習先收集一大堆過去的經(jīng)驗(含狀態(tài)、動作、后果/獎勵等),然后把這些經(jīng)驗當成教材,讓模型在離線狀態(tài)下學習策略,而不是去真實交通場景中試錯。這樣做的好處是安全、低成本、能重復(fù)利用現(xiàn)有數(shù)據(jù);但也帶來了不少問題,我們后面會詳細說。

wKgZO2mGk5SAVX6aAAAQo00DEvw274.jpg

離線強化學習的技術(shù)挑戰(zhàn)

離線強化學習在訓(xùn)練階段只能訪問一個固定的數(shù)據(jù)集,這個數(shù)據(jù)集是由若干次交互生成的記錄集合;訓(xùn)練算法不能再向環(huán)境發(fā)出動作來采集新的樣本。這個改變會帶來分布覆蓋問題、估值偏差問題以及評估難題。

離線強化學習訓(xùn)練大模型時,提供的歷史數(shù)據(jù)來源于某些已有的行為策略或人為駕駛習慣,數(shù)據(jù)中可能壓根沒有某些狀態(tài)-動作對。如果訓(xùn)練出的策略在部署時選擇了數(shù)據(jù)中極少或根本沒有覆蓋的動作,算法對這些動作的價值估計將會非常不可靠。

在離線數(shù)據(jù)里,有些動作要么出現(xiàn)得很少,要么干脆沒出現(xiàn)過。按理說,模型對這些動作應(yīng)該非常謹慎才對。但強化學習算法在估計動作價值(Q值)時,會因為缺少真實數(shù)據(jù)支撐,反而會把這些動作估得特別好。導(dǎo)致的結(jié)果就是,模型會覺得這個操作收益很高,然后在學策略時越來越偏向這些現(xiàn)實中并不安全、甚至根本不可行的行為。

除此之外,離線強化學習在訓(xùn)練時無法在真實交通環(huán)境中驗證策略,只能依賴離線的估計方法或仿真,這使得對學習到的策略的可靠性驗證變得更復(fù)雜。為了解決分布偏差和估值問題,離線強化學習算法還必須加入保守項、不確定性估計、行為約束等,這些都會增加實現(xiàn)難度與調(diào)參成本。

wKgZO2mGk5WAZY72AAAR42n7O-I493.jpg

離線強化學習的主流思路

現(xiàn)階段,離線強化學習使用較多的實現(xiàn)方式就是行為克隆,即把問題轉(zhuǎn)成監(jiān)督學習,直接用歷史狀態(tài)去預(yù)測歷史動作,學會“模仿人類駕駛”。行為克隆實現(xiàn)簡單、訓(xùn)練穩(wěn)定,但它的上限被數(shù)據(jù)中人類駕駛的質(zhì)量限制,且無法處理數(shù)據(jù)中沒有覆蓋到的新場景。

為了解決行為克隆存在的問題,出現(xiàn)了以價值估計為核心、但帶有保守性約束的離線強化學習算法,主要有“行為約束”及“保守估值”兩種策略。行為約束也就是在優(yōu)化策略時,直接限制新策略不能偏離已有數(shù)據(jù)太遠;保守估值策略是在估計行動價值時,對數(shù)據(jù)中不存在的行動進行刻意懲罰。這些做法都是為了壓低不切實際的樂觀估計,讓學習過程更可靠。

還有一種思路是先學習一個環(huán)境動力學模型,然后在模型中進行規(guī)劃或策略優(yōu)化,這一思路的關(guān)鍵在于如何讓模型在不確定或預(yù)測不可靠的區(qū)域加入懲罰或不信任度折扣,避免因模型錯誤導(dǎo)致的危險動作。

此外,還有一些如ensemble(集成)不確定性估計、用置信區(qū)間控制決策、或把離線學習作為預(yù)訓(xùn)練基座,然后在受控的仿真或沙箱里做有限的在線微調(diào)的方法用于實現(xiàn)模型學習。

在實際應(yīng)用中,這些方法常會被組合使用,行為克隆可作為穩(wěn)定的初始策略;保守Q學習或批量約束方法能進一步提升策略性能;而基于模型的規(guī)劃與不確定性估計則充當風險控制的補充。需要強調(diào)的是,無論采用何種方法,數(shù)據(jù)的多樣性與質(zhì)量始終是決定成效的根本,如果缺乏對某些場景的覆蓋,任何算法都難以實現(xiàn)安全可靠的泛化。

wKgZO2mGk5aAUxQKAAASG3BOmsQ173.jpg

自動駕駛?cè)绾斡煤秒x線強化學習?

自動駕駛?cè)绾斡煤秒x線強化學習?首先要做的是要規(guī)劃好數(shù)據(jù)收集體系。除了日常駕駛?cè)罩荆€要主動合成和收集如夜間、逆光、大雨、大霧、臨時施工場景、行人異常行為等邊緣情況的樣本。仿真在這里的作用非常重要,它可以彌補現(xiàn)實場景中稀缺的數(shù)據(jù),但必須和真實數(shù)據(jù)結(jié)合。

接著就是要做好分階段訓(xùn)練流程,在大模型學習的整個鏈路中,可以把離線強化學習當作預(yù)訓(xùn)練的手段,可以先在大規(guī)模歷史數(shù)據(jù)上訓(xùn)練出一個“穩(wěn)健基線”;然后在高保真仿真里對該策略做更多場景覆蓋測試;最后就是進行受控上線(比如先在特定區(qū)域、低速、有人監(jiān)控的條件下運行),在實際運行中以“shadowmode(影子模式)”不斷記錄策略決策與真實駕駛者行為的差異,收集新數(shù)據(jù)用于后續(xù)離線微調(diào)。

在進行大模型部署時,一定要有強制的安全層和退回機制。不管策略多完善,都要有獨立的安全監(jiān)控,當感知或決策模塊檢測到高不確定性、模型越界或可能造成人員傷害的風險時,系統(tǒng)應(yīng)降級到更保守的控制邏輯,或者直接交由人為接管。

wKgZPGmGk5eAKP_9AAB4wKdjTwI480.jpg

圖片源自:網(wǎng)絡(luò)

評估和指標體系的設(shè)定也要更加嚴謹。單靠訓(xùn)練時的“平均回報”或離線估計不足以判斷部署的安全性,其中需要包括不確定性分布、最差-k%情況、OPE(離線策略評估)方法、以及通過仿真和小規(guī)模上線驗證得到的指標等多維度指標。

對于自動駕駛來說,監(jiān)管與責任框架必須要預(yù)先設(shè)計好。在真實交通環(huán)境中,任何決策一旦出問題,就會牽扯到責任認定、修復(fù)補救和合規(guī)審查,離線強化學習的訓(xùn)練日志與決策解釋將是重要證據(jù)。因此,要保證數(shù)據(jù)可追溯、策略版本可回滾、并保留充分的審計記錄。

wKgZO2mGk5eAFhTuAAASAJELks8946.jpg

最后的話

雖然離線強化學習面臨著“數(shù)據(jù)決定上限”與“分布外泛化難”的問題,但其給現(xiàn)實世界應(yīng)用,尤其是自動駕駛這類安全敏感任務(wù),提供了一個非常有價值的實現(xiàn)路徑。它緩和了“強化學習的潛力”與“現(xiàn)實世界的安全約束”之間的矛盾,使我們能利用海量歷史經(jīng)驗去訓(xùn)練智能策略。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自動駕駛
    +關(guān)注

    關(guān)注

    793

    文章

    14878

    瀏覽量

    179764
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    自動駕駛中常的占用網(wǎng)絡(luò)檢測存在哪些問題?

    自動駕駛感知技術(shù)在過去幾年中經(jīng)歷了很大的變化,從最初的二維圖像檢測到鳥瞰圖投影,再到如今備受關(guān)注的占用網(wǎng)絡(luò),感知技術(shù)的提升,讓自動駕駛的能力越來越強。
    的頭像 發(fā)表于 02-24 15:53 ?936次閱讀

    自動駕駛中常的“深度估計”是個啥?

    [首發(fā)于智駕最前沿微信公眾號]當我們看一張照片時,可以通過肉眼自然地判斷照片中的物體遠近,這種對于空間和距離的感知,對于人類來說是本能,是從幼兒時期開始就形成的一種能力。 對于自動駕駛汽車來說
    的頭像 發(fā)表于 02-16 13:18 ?1.7w次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“深度估計”是個啥?

    強化學習會讓自動駕駛模型學習更快嗎?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛大模型訓(xùn)練時,有的技術(shù)方案會采用模仿學習,而有些會采用強化學習。同樣作為大模型的訓(xùn)練方式,強化學習有何不同?又有什么特點呢? 什么是
    的頭像 發(fā)表于 01-31 09:34 ?639次閱讀
    <b class='flag-5'>強化學習</b>會讓<b class='flag-5'>自動駕駛</b>模型<b class='flag-5'>學習</b>更快嗎?

    自動駕駛中常的模仿學習是什么?

    當談及自動駕駛模型學習時,經(jīng)常會提到模仿學習的概念。所謂模仿學習,就是模型先看別人怎么做,然后學著去做。自動駕駛中的模仿
    的頭像 發(fā)表于 01-16 16:41 ?1988次閱讀

    自動駕駛中常的世界模型是什么?

    在很多廠家的技術(shù)方案中,會提到世界模型的介紹。世界模型,就是自動駕駛系統(tǒng)內(nèi)部用來表示外部世界并預(yù)測未來演變的一組模型或表征。換句話說,世界模型就是把傳感器看到的東西(攝像頭畫面、激光雷達點云、雷達
    的頭像 發(fā)表于 01-05 16:23 ?888次閱讀

    如何訓(xùn)練好自動駕駛端到端模型?

    [首發(fā)于智駕最前沿微信公眾號]最近有位小伙伴在后臺留言提問:端到端算法是怎樣訓(xùn)練的?是模仿學習強化學習離線強化學習這三類嗎?其實端到端(end-to-end)算法在
    的頭像 發(fā)表于 12-08 16:31 ?1422次閱讀
    如何訓(xùn)練好<b class='flag-5'>自動駕駛</b>端到端模型?

    大模型中常的快慢思考會對自動駕駛產(chǎn)生什么影響?

    2024年7月,理想汽車發(fā)布的基于端到端模型、VLM視覺語言模型和世界模型的全新自動駕駛技術(shù)架構(gòu)標志著其全棧自研的智能駕駛研發(fā)進入了新階段。該架構(gòu)的算法原型創(chuàng)新性地受到了諾貝爾獎得主丹尼爾·卡尼曼
    的頭像 發(fā)表于 11-22 10:59 ?2496次閱讀
    大模型<b class='flag-5'>中常</b><b class='flag-5'>提</b>的快慢思考會對<b class='flag-5'>自動駕駛</b>產(chǎn)生什么影響?

    自動駕駛中常的“強化學習”是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強化學習(Reinforcement Learning,簡稱RL)”,強化學習是一類讓機器通過試錯來學會做決策的技術(shù)。簡單理解
    的頭像 發(fā)表于 10-23 09:00 ?658次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“<b class='flag-5'>強化學習</b>”是個啥?

    自動駕駛中常的“專家數(shù)據(jù)”是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛時,經(jīng)常會聽到一個概念,那便是“專家數(shù)據(jù)”。專家數(shù)據(jù),說白了就是“按理應(yīng)該這么做”的那類示范數(shù)據(jù)。它不是隨機抓來的日志,也不是隨便標注的標簽,而是來源可靠
    的頭像 發(fā)表于 10-09 09:33 ?592次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“專家數(shù)據(jù)”是個啥?

    自動駕駛中常的ODD是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在自動駕駛中,經(jīng)常會聽到一個概念,那就是ODD。所謂ODD,全稱為Operational Design Domain,中文常譯為“運行設(shè)計域”或者“作業(yè)域”。直觀一點
    的頭像 發(fā)表于 09-22 09:04 ?898次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的ODD是個啥?

    自動駕駛中常的硬件在環(huán)是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛技術(shù)時,經(jīng)常會提及一個技術(shù),那就是硬件在環(huán),所謂的硬件在環(huán)是個啥?對于自動駕駛來說有啥作用?今天智駕最前沿就帶大家來聊聊這一技術(shù)。 所謂硬件在環(huán)
    的頭像 發(fā)表于 08-14 08:54 ?1234次閱讀

    自動駕駛中常的世界模型是個啥?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)的不斷成熟,車輛需要在復(fù)雜多變的道路環(huán)境中安全地行駛,這就要求系統(tǒng)不僅能“看見”周圍的世界,還要能“理解”和“推測”未來的變化。世界模型可以被看作一種
    的頭像 發(fā)表于 06-24 08:53 ?1122次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的世界模型是個啥?

    自動駕駛中常的“點云”是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在自動駕駛系統(tǒng)中,點云技術(shù)作為三維空間感知的核心手段,為車輛提供了精確的距離和形狀信息,從而實現(xiàn)目標檢測、環(huán)境建模、定位與地圖構(gòu)建等關(guān)鍵功能。那所謂的“點云”,到底是個
    的頭像 發(fā)表于 05-21 09:04 ?1125次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“點云”是個啥?

    自動駕駛中常的“NOA”是個啥?

    近年來,自動駕駛技術(shù)發(fā)展迅速,業(yè)界不斷探索如何在復(fù)雜交通場景中實現(xiàn)真正的無人駕駛。城市NOA作為自動駕駛的一項前沿技術(shù),正成為各大廠商相互爭奪的關(guān)鍵技術(shù)。 何為NOA? NOA,全稱
    的頭像 發(fā)表于 04-09 09:03 ?3061次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“NOA”是個啥?

    自動駕駛大模型中常的Token是個啥?對自動駕駛有何影響?

    近年來,人工智能技術(shù)迅速發(fā)展,大規(guī)模深度學習模型(即大模型)在自然語言處理、計算機視覺、語音識別以及自動駕駛等多個領(lǐng)域取得了突破性進展。自動駕駛作為未來智能交通的重要方向,其核心技術(shù)之一便是對海量
    的頭像 發(fā)表于 03-28 09:16 ?1335次閱讀