色婷婷88AV开心激情天,超碰91免费在线观看

[首發(fā)于智駕最前沿微信公眾號]在之前談及自動駕駛模型學習時，詳細聊過強化學習的作用，由于強化學習能讓大模型通過交互學到策略，不需要固定的規(guī)則，從而給自動駕駛的落地創(chuàng)造了更多可能。

強化學習示意圖，圖片源自：網(wǎng)絡(luò)

但強化學習本身是需要不斷試錯的，如果采用這種學習方式在真實道路中不斷嘗試，一定會導(dǎo)致不可控的事故。于是就有人提出一種猜測，能不能利用已經(jīng)存在的大量行駛?cè)罩尽?a target="_blank">仿真記錄和人類駕駛數(shù)據(jù)，在訓(xùn)練過程中完全不與真實環(huán)境交互，從而訓(xùn)練出一個靠譜的決策模塊？

離線強化學習就是基于此提出的方案。離線強化學習先收集一大堆過去的經(jīng)驗（含狀態(tài)、動作、后果/獎勵等），然后把這些經(jīng)驗當成教材，讓模型在離線狀態(tài)下學習策略，而不是去真實交通場景中試錯。這樣做的好處是安全、低成本、能重復(fù)利用現(xiàn)有數(shù)據(jù)；但也帶來了不少問題，我們后面會詳細說。

離線強化學習的技術(shù)挑戰(zhàn)

離線強化學習在訓(xùn)練階段只能訪問一個固定的數(shù)據(jù)集，這個數(shù)據(jù)集是由若干次交互生成的記錄集合；訓(xùn)練算法不能再向環(huán)境發(fā)出動作來采集新的樣本。這個改變會帶來分布覆蓋問題、估值偏差問題以及評估難題。

離線強化學習訓(xùn)練大模型時，提供的歷史數(shù)據(jù)來源于某些已有的行為策略或人為駕駛習慣，數(shù)據(jù)中可能壓根沒有某些狀態(tài)-動作對。如果訓(xùn)練出的策略在部署時選擇了數(shù)據(jù)中極少或根本沒有覆蓋的動作，算法對這些動作的價值估計將會非常不可靠。

在離線數(shù)據(jù)里，有些動作要么出現(xiàn)得很少，要么干脆沒出現(xiàn)過。按理說，模型對這些動作應(yīng)該非常謹慎才對。但強化學習算法在估計動作價值（Q值）時，會因為缺少真實數(shù)據(jù)支撐，反而會把這些動作估得特別好。導(dǎo)致的結(jié)果就是，模型會覺得這個操作收益很高，然后在學策略時越來越偏向這些現(xiàn)實中并不安全、甚至根本不可行的行為。

除此之外，離線強化學習在訓(xùn)練時無法在真實交通環(huán)境中驗證策略，只能依賴離線的估計方法或仿真，這使得對學習到的策略的可靠性驗證變得更復(fù)雜。為了解決分布偏差和估值問題，離線強化學習算法還必須加入保守項、不確定性估計、行為約束等，這些都會增加實現(xiàn)難度與調(diào)參成本。

離線強化學習的主流思路

現(xiàn)階段，離線強化學習使用較多的實現(xiàn)方式就是行為克隆，即把問題轉(zhuǎn)成監(jiān)督學習，直接用歷史狀態(tài)去預(yù)測歷史動作，學會“模仿人類駕駛”。行為克隆實現(xiàn)簡單、訓(xùn)練穩(wěn)定，但它的上限被數(shù)據(jù)中人類駕駛的質(zhì)量限制，且無法處理數(shù)據(jù)中沒有覆蓋到的新場景。

為了解決行為克隆存在的問題，出現(xiàn)了以價值估計為核心、但帶有保守性約束的離線強化學習算法，主要有“行為約束”及“保守估值”兩種策略。行為約束也就是在優(yōu)化策略時，直接限制新策略不能偏離已有數(shù)據(jù)太遠；保守估值策略是在估計行動價值時，對數(shù)據(jù)中不存在的行動進行刻意懲罰。這些做法都是為了壓低不切實際的樂觀估計，讓學習過程更可靠。

還有一種思路是先學習一個環(huán)境動力學模型，然后在模型中進行規(guī)劃或策略優(yōu)化，這一思路的關(guān)鍵在于如何讓模型在不確定或預(yù)測不可靠的區(qū)域加入懲罰或不信任度折扣，避免因模型錯誤導(dǎo)致的危險動作。

此外，還有一些如ensemble（集成）不確定性估計、用置信區(qū)間控制決策、或把離線學習作為預(yù)訓(xùn)練基座，然后在受控的仿真或沙箱里做有限的在線微調(diào)的方法用于實現(xiàn)模型學習。

在實際應(yīng)用中，這些方法常會被組合使用，行為克隆可作為穩(wěn)定的初始策略；保守Q學習或批量約束方法能進一步提升策略性能；而基于模型的規(guī)劃與不確定性估計則充當風險控制的補充。需要強調(diào)的是，無論采用何種方法，數(shù)據(jù)的多樣性與質(zhì)量始終是決定成效的根本，如果缺乏對某些場景的覆蓋，任何算法都難以實現(xiàn)安全可靠的泛化。

自動駕駛?cè)绾斡煤秒x線強化學習？

自動駕駛?cè)绾斡煤秒x線強化學習？首先要做的是要規(guī)劃好數(shù)據(jù)收集體系。除了日常駕駛?cè)罩荆€要主動合成和收集如夜間、逆光、大雨、大霧、臨時施工場景、行人異常行為等邊緣情況的樣本。仿真在這里的作用非常重要，它可以彌補現(xiàn)實場景中稀缺的數(shù)據(jù)，但必須和真實數(shù)據(jù)結(jié)合。

接著就是要做好分階段訓(xùn)練流程，在大模型學習的整個鏈路中，可以把離線強化學習當作預(yù)訓(xùn)練的手段，可以先在大規(guī)模歷史數(shù)據(jù)上訓(xùn)練出一個“穩(wěn)健基線”；然后在高保真仿真里對該策略做更多場景覆蓋測試；最后就是進行受控上線（比如先在特定區(qū)域、低速、有人監(jiān)控的條件下運行），在實際運行中以“shadowmode（影子模式）”不斷記錄策略決策與真實駕駛者行為的差異，收集新數(shù)據(jù)用于后續(xù)離線微調(diào)。

在進行大模型部署時，一定要有強制的安全層和退回機制。不管策略多完善，都要有獨立的安全監(jiān)控，當感知或決策模塊檢測到高不確定性、模型越界或可能造成人員傷害的風險時，系統(tǒng)應(yīng)降級到更保守的控制邏輯，或者直接交由人為接管。

圖片源自：網(wǎng)絡(luò)

評估和指標體系的設(shè)定也要更加嚴謹。單靠訓(xùn)練時的“平均回報”或離線估計不足以判斷部署的安全性，其中需要包括不確定性分布、最差-k%情況、OPE（離線策略評估）方法、以及通過仿真和小規(guī)模上線驗證得到的指標等多維度指標。

對于自動駕駛來說，監(jiān)管與責任框架必須要預(yù)先設(shè)計好。在真實交通環(huán)境中，任何決策一旦出問題，就會牽扯到責任認定、修復(fù)補救和合規(guī)審查，離線強化學習的訓(xùn)練日志與決策解釋將是重要證據(jù)。因此，要保證數(shù)據(jù)可追溯、策略版本可回滾、并保留充分的審計記錄。

最后的話

雖然離線強化學習面臨著“數(shù)據(jù)決定上限”與“分布外泛化難”的問題，但其給現(xiàn)實世界應(yīng)用，尤其是自動駕駛這類安全敏感任務(wù)，提供了一個非常有價值的實現(xiàn)路徑。它緩和了“強化學習的潛力”與“現(xiàn)實世界的安全約束”之間的矛盾，使我們能利用海量歷史經(jīng)驗去訓(xùn)練智能策略。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴