自動(dòng)駕駛多模態(tài)數(shù)據(jù)感知融合方案對(duì)比

2023年城市NOA成為自動(dòng)駕駛新的戰(zhàn)場(chǎng)，各車企紛紛發(fā)布新產(chǎn)品、立下新目標(biāo)，要在高階輔助駕駛的賽場(chǎng)上大展身手。感知模塊作為自動(dòng)駕駛流程中的第一環(huán)，也是將物理世界與車機(jī)大腦相連接的重要一環(huán)。如何讓汽車像人類一樣，將“眼前所看”轉(zhuǎn)化為“腦中所想”，進(jìn)一步變成“所作所為”，對(duì)于算法模型有很大的考驗(yàn)。基于Transformer模型的BEV技術(shù)成為當(dāng)下的熱門選擇。億歐汽車始終關(guān)注智能電動(dòng)汽車領(lǐng)域的技術(shù)進(jìn)展與商業(yè)動(dòng)態(tài)，特此撰寫B(tài)EV+Transformer系列文章，從技術(shù)、商業(yè)、趨勢(shì)三個(gè)維度分別入手，深度剖析自動(dòng)駕駛感知模塊發(fā)展的新浪潮。

01??高階智能駕駛感知模塊：汽車成為機(jī)器生物的第一步

實(shí)現(xiàn)高級(jí)輔助駕駛乃至自動(dòng)駕駛的第一步就是感知，如何更準(zhǔn)確、高效地感知到路面信息是智駕系統(tǒng)良好運(yùn)轉(zhuǎn)的起點(diǎn)。路面信息包括靜態(tài)和動(dòng)態(tài)兩類，靜態(tài)信息包括墻壁、立桿、車道線、車位線、斑馬線等，以及其他路面障礙物，動(dòng)態(tài)信息則是指行人、車輛等其他交通參與方。正如時(shí)任特斯拉Autopilot負(fù)責(zé)人Andrej Karpathy在2021年Tesla AI DAY上所講，自動(dòng)駕駛研發(fā)像是“從頭開始合成人造動(dòng)物”，從人眼所及到大腦所感，信息在人類頭腦中經(jīng)歷了2D到3D的轉(zhuǎn)換，而這一轉(zhuǎn)換同樣是高階智能駕駛的感知模塊所需要學(xué)習(xí)的能力。

02 ?感知路線：純視覺(jué)與多模態(tài)融合兩條路線并行

從感知角度來(lái)劃分，目前高階智能駕駛領(lǐng)域分為兩派，一派為特斯拉和mobileye堅(jiān)持的純視覺(jué)感知技術(shù)路線，其余則大多選擇多傳感器融合的技術(shù)路線。純視覺(jué)感知方案只需將攝像頭收集到的圖像數(shù)據(jù)進(jìn)行特征提取、處理、轉(zhuǎn)化為3D數(shù)據(jù)；而多傳感器融合的方案采用攝像頭與激光雷達(dá)相結(jié)合，通過(guò)多種工作原理提升感知精度，也能在某一設(shè)備失效的情況下起到冗余的安全防護(hù)作用。但多傳感器方案中，不同工作原理下，傳感器收集到的數(shù)據(jù)類型、所處坐標(biāo)系都不同，攝像頭收集到的視覺(jué)數(shù)據(jù)屬于2D圖像空間，激光雷達(dá)獲得的點(diǎn)云數(shù)據(jù)屬于3D空間，處理與融合這些數(shù)據(jù)的策略及路徑成為有效保留數(shù)據(jù)信息的關(guān)鍵。

03? 融合方式：不同邏輯下數(shù)據(jù)處理各有利弊

具體來(lái)講，基于融合的不同位置，可以分為前、中、后融合三種方式，三種方式分別發(fā)生在數(shù)據(jù)處理的不同階段，在信息保留、算力使用、通信速率等多方面也具有不同特征。

3.1? 后融合：應(yīng)用廣泛但存在先驗(yàn)式局限

在BEV大范圍應(yīng)用前，最常用的是后融合方案，也稱為“目標(biāo)級(jí)融合”。顧名思義，后融合方案中，不同傳感器獲得的數(shù)據(jù)通過(guò)不同網(wǎng)絡(luò)算法獨(dú)立處理，處理后得到各自的目標(biāo)數(shù)據(jù)，再將目標(biāo)數(shù)據(jù)在決策層由主處理器進(jìn)行融合。

例如，針對(duì)圖像數(shù)據(jù)，算法逐張?zhí)崛?D特征后，對(duì)應(yīng)轉(zhuǎn)化到3D空間中，得出物體邊界信息；針對(duì)點(diǎn)云數(shù)據(jù)，算法直接進(jìn)行3D檢測(cè)得到對(duì)應(yīng)結(jié)果。各自處理后，所有的輸出結(jié)果通過(guò)基于規(guī)則的（rule-based）融合方式融合到同一坐標(biāo)系中。可見(jiàn)，在融合之前，不同數(shù)據(jù)處于各自的處理通道中，算法只需適配對(duì)應(yīng)類型的數(shù)據(jù)，融合模塊設(shè)置不同場(chǎng)景、不同傳感器的置信度，最終輸出融合結(jié)果用于決策。整體更易解耦，既易于整車廠自主研發(fā)，也便于Tier 1按照下游需求進(jìn)行模塊化定制。但是，正是由于后融合方式是基于規(guī)則處理的，因而存在“從結(jié)果反推過(guò)程”的先驗(yàn)式思路，無(wú)論是不同數(shù)據(jù)處理過(guò)程中的目標(biāo)識(shí)別，還是對(duì)傳感器置信度的設(shè)置，都是以預(yù)設(shè)結(jié)果為導(dǎo)向的，不僅會(huì)造成信息損耗、成本升高，也難以突破當(dāng)下認(rèn)知局限。

3.2 前融合：融合形成超級(jí)傳感數(shù)據(jù)，但算力要求高

與之對(duì)應(yīng)的，是傳感器前融合方案，也稱為“數(shù)據(jù)級(jí)融合”。前融合方案將融合步驟前置，所有傳感器的識(shí)別結(jié)果連同其他自動(dòng)駕駛所需數(shù)據(jù)，統(tǒng)一融合到為一整組數(shù)據(jù)，再將融合后的所有數(shù)據(jù)依據(jù)目標(biāo)進(jìn)行感知。前融合方案下，相當(dāng)于不同的傳感器組合為一個(gè)更加超級(jí)、多能的傳感器，既能看圖、又能探測(cè)，感知算法無(wú)需區(qū)分?jǐn)?shù)據(jù)來(lái)源與類型，直接進(jìn)行綜合處理。

顯然，前融合方案的邏輯更加類似于人眼到大腦的工作方式，將所有數(shù)據(jù)整體分析，增強(qiáng)了數(shù)據(jù)關(guān)聯(lián)性，也減少了信息丟失。但與此同時(shí)，異構(gòu)數(shù)據(jù)的融合對(duì)于算法也有著極大的考驗(yàn)。首先龐大的數(shù)據(jù)量對(duì)于存儲(chǔ)能力、算力都有較高要求，而且由于坐標(biāo)系的不同，不同數(shù)據(jù)間的轉(zhuǎn)換效率和效果也需要不同的算法邏輯來(lái)實(shí)現(xiàn)。

3.3 中融合：平衡規(guī)則局限與算力要求，適應(yīng)BEV視角

基于架構(gòu)特性和操作可行性，目前業(yè)內(nèi)更青睞中融合方案，即“特征級(jí)融合”，這一方案也更適合BEV視角。

相較于前、后融合，中融合將特征提取置于融合之前，但將數(shù)據(jù)感知置于融合之后。換言之，中融合方案先通過(guò)神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)有效特征，將有效特征與BEV空間特征相融合，最終輸出BEV視角下的整套數(shù)據(jù)，用于決策層的感知和輸出。中融合方案中，數(shù)據(jù)處理更直接，信息損耗更少，相應(yīng)地，算力需求也一定程度降低，研發(fā)重點(diǎn)來(lái)到了神經(jīng)網(wǎng)絡(luò)模型的更新上。隨著深度學(xué)習(xí)的發(fā)展，Transformer的應(yīng)用突破了過(guò)往算法依賴人為規(guī)則所帶來(lái)的認(rèn)知局限和邏輯上的反復(fù)。 04 ?視角轉(zhuǎn)換：前視放射轉(zhuǎn)為俯視全景，BEV+Transformer彌補(bǔ)原有不足 不同融合方案的選擇和迭代的背后，是感知視角的根本性轉(zhuǎn)換。

4.1 2D直視圖+CNN：感知不夠全面、連貫，后融合學(xué)習(xí)速度慢

在此之前，傳統(tǒng)的自動(dòng)駕駛技術(shù)可以概括為“2D 直視圖+CNN”時(shí)代，路況感知信號(hào)由相機(jī)收集到的 2D 圖像和雷達(dá)收集到的 3D 圖像組成，感知數(shù)據(jù)基于每個(gè)傳感器的位置形成放射圖像，不同感知結(jié)果通過(guò) CNN（卷積神經(jīng)網(wǎng)絡(luò)）進(jìn)行后融合，通過(guò)大量計(jì)算統(tǒng)一升維到 3D，符合 3D 狀態(tài)下車機(jī)行駛的坐標(biāo)系。這樣的方式存在很多欠缺和隱患： · 畫面遮擋部分難以預(yù)測(cè)，矩形框標(biāo)注損失細(xì)節(jié)，不夠精確； · 高度或深度方面認(rèn)知存在誤差，坡度影響難以準(zhǔn)確預(yù)測(cè)； · 缺少時(shí)間信息，感知與預(yù)測(cè)的連續(xù)性難以確認(rèn)； · 多種感知信息進(jìn)行后融合，時(shí)間與人力成本較高。在這種情況下，感知的思路是將“所見(jiàn)”與“所學(xué)”相對(duì)應(yīng)，試圖成功“認(rèn)出”路上有什么，就難免出現(xiàn)“擋住了所以沒(méi)看見(jiàn)”“看見(jiàn)了但認(rèn)錯(cuò)了”“不認(rèn)識(shí)就當(dāng)不存在”這些看似好笑、實(shí)則危險(xiǎn)的情況。

4.2 BEV+Transformer：上帝視角減少前視局限，多模態(tài)數(shù)據(jù)融合是關(guān)鍵

1）路徑：從2D到3D到4D，算法推動(dòng)端到端優(yōu)化 BEV+Transformer方案應(yīng)運(yùn)而生。 BEV（Bird's Eye View），是指一種鳥瞰式的視角或坐標(biāo)系，可以立體描述感知到的現(xiàn)實(shí)世界，相當(dāng)于在車輛正上方10-20米處向下俯視車輛及周圍環(huán)境，也被叫做“上帝視角”。相對(duì)應(yīng)的，BEV也代指將視覺(jué)信息由圖像空間端到端地轉(zhuǎn)換到BEV空間下的技術(shù)。在BEV視圖中，道路信息自上而下展示在以自車為中心的坐標(biāo)系中，避免了原先前視放射視角下的尺度、遮擋等感知問(wèn)題，信息展示更加全面。但視角變化后深度的估計(jì)難度增大，前融合方案的處理難度增大，如何創(chuàng)新算法，將不同特征最優(yōu)化表達(dá)是目前BEV研究中的重點(diǎn)。 ?

盡管各家研發(fā)進(jìn)度和細(xì)節(jié)略有不同，但BEV+Transformer方案的整體思路基本一致：“輸入-提取-轉(zhuǎn)換-融合-時(shí)序-輸出”，并在這個(gè)過(guò)程中完成“2D到3D到4D”的轉(zhuǎn)換。 · 輸入：將多個(gè)攝像頭數(shù)據(jù)輸入到共享的骨干網(wǎng)絡(luò)（Backbone） · 提?。汗歉删W(wǎng)絡(luò)提取攝像頭數(shù)據(jù)中的特征（feature） · 轉(zhuǎn)換：所有源于攝像頭數(shù)據(jù)的特征轉(zhuǎn)換到BEV空間中（2D->3D） · 融合：圖像數(shù)據(jù)特征與其他傳感器數(shù)據(jù)特征融合 · 時(shí)序：增加時(shí)序信息，形成具有時(shí)空連續(xù)性的感知信息（3D->4D） · 輸出：輸出感知結(jié)果，包括靜態(tài)語(yǔ)義地圖、動(dòng)態(tài)目標(biāo)檢測(cè)以及運(yùn)動(dòng)預(yù)測(cè)等，用于決策規(guī)控 Transformer作為一種新型神經(jīng)網(wǎng)絡(luò)架構(gòu)，相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)（如CNN），可以直接進(jìn)行2D、3D不同序列之間的轉(zhuǎn)換。Transformer采用交叉注意力機(jī)制，并行訓(xùn)練數(shù)據(jù)，在跨模態(tài)融合以及時(shí)序融合過(guò)程中，能夠更加全面地在空間時(shí)序上建模，形成時(shí)序融合下的4D空間信息，從而使感知結(jié)果更加連續(xù)、穩(wěn)定。在此基礎(chǔ)上，BEV算法進(jìn)一步迭代為Occupancy Networks（占用網(wǎng)絡(luò)），更加直接地打造3D空間。有別于感知2D圖像、提取像素（pixel）轉(zhuǎn)化為3D特征，Occupancy Networks直接感知3D空間中的體素（voxel），也就是將世界劃分為多個(gè)大小一致的立方體，快速識(shí)別每個(gè)體素是否被占用，繼而判斷車輛是否要躲避。Occupancy Networks可以在10ms內(nèi)完成計(jì)算，感知更高效、結(jié)果更精準(zhǔn)，將BEV空間在高度上進(jìn)行了進(jìn)一步擴(kuò)展。

2）優(yōu)勢(shì)：全局視野、4D時(shí)空，感知更穩(wěn)定，預(yù)測(cè)更可靠 整體來(lái)講，基于Transformer的BEV感知技術(shù)，對(duì)過(guò)往感知過(guò)程中的弊病給出了不同思路的解決方案，具有明顯優(yōu)勢(shì)。 1. 俯視圖少有遮擋，算法也可以對(duì)被遮擋區(qū)域進(jìn)行預(yù)測(cè) 2. 異構(gòu)數(shù)據(jù)進(jìn)行特征級(jí)融合，減少層層處理以及先驗(yàn)規(guī)則帶來(lái)的信息丟失 3. 多模態(tài)數(shù)據(jù)特征在同一空間中融合，信息關(guān)聯(lián)性更強(qiáng) 4. 引入時(shí)序信息，感知結(jié)果更連續(xù)穩(wěn)定 5. 多模態(tài)數(shù)據(jù)統(tǒng)一在以自車為中心的同一坐標(biāo)系中，下游規(guī)控模塊提取更高效 6. 感知任務(wù)在BEV空間運(yùn)行，迭代更快，可實(shí)現(xiàn)端到端優(yōu)化 3）應(yīng)用：處理多類長(zhǎng)尾場(chǎng)景，加速去高精地圖因此，BEV+Transformer方案能夠處理多種自動(dòng)駕駛的corner case場(chǎng)景。

1. 感知復(fù)雜道路：在交通擁堵、路口復(fù)雜、路面不規(guī)則等情況下，BEV+Transformer以連續(xù)的俯視視角生成更全面的感知情況，以做出更可靠的路徑規(guī)劃；甚至在路面狹窄、有遮擋的情況下，俯視視角、跨模態(tài)融合、注意力機(jī)制下的算法，這些都能夠使車輛更好地識(shí)別周邊環(huán)境。

2. 應(yīng)對(duì)惡劣天氣：在雨雪霧霾等惡劣天氣條件下，攝像頭和激光雷達(dá)的感知效果都會(huì)受到影響，BEV+Transformer方案相比能夠減少損耗，避免各傳感器“各自為戰(zhàn)”。

3. 應(yīng)對(duì)動(dòng)態(tài)交通：高階智能駕駛不僅需要在常規(guī)交通中平穩(wěn)運(yùn)行，還需要對(duì)并車、合流等復(fù)雜任務(wù)作出反應(yīng)，另外還需要應(yīng)對(duì)交通事故、路段封閉等突發(fā)情況。BEV+Transformer能夠?qū)崟r(shí)輸出交通狀況，并對(duì)路面行人、車輛作出預(yù)測(cè)，便于智駕系統(tǒng)做出更加合適的應(yīng)急策略。更重要的是，BEV+Transformer的方案將靜態(tài)道路信息與動(dòng)態(tài)道路參與方統(tǒng)一到了同一個(gè)坐標(biāo)系下，通過(guò)實(shí)時(shí)感知與轉(zhuǎn)換，在行駛中即可實(shí)時(shí)生成“活地圖”，推動(dòng)自動(dòng)駕駛中“感知-決策-規(guī)劃”的任務(wù)進(jìn)行。這也就意味著高精地圖不再成為強(qiáng)需求。對(duì)于車企來(lái)講，使用高精地圖一直面臨著“資質(zhì)門檻高、采購(gòu)成本高、維護(hù)成本高”的“三高”難題，如果能夠?qū)EV+Transformer上車使用，擺脫高精地圖將指日可待，在當(dāng)下“以價(jià)換量”的市場(chǎng)競(jìng)爭(zhēng)中，又能向前一大步。

審核編輯：黃飛

閱讀全文