2023年城市NOA成為自動(dòng)駕駛新的戰(zhàn)場(chǎng),各車企紛紛發(fā)布新產(chǎn)品、立下新目標(biāo),要在高階輔助駕駛的賽場(chǎng)上大展身手。感知模塊作為自動(dòng)駕駛流程中的第一環(huán),也是將物理世界與車機(jī)大腦相連接的重要一環(huán)。如何讓汽車像人類一樣,將“眼前所看”轉(zhuǎn)化為“腦中所想”,進(jìn)一步變成“所作所為”,對(duì)于算法模型有很大的考驗(yàn)。基于Transformer模型的BEV技術(shù)成為當(dāng)下的熱門選擇。 億歐汽車始終關(guān)注智能電動(dòng)汽車領(lǐng)域的技術(shù)進(jìn)展與商業(yè)動(dòng)態(tài),特此撰寫B(tài)EV+Transformer系列文章,從技術(shù)、商業(yè)、趨勢(shì)三個(gè)維度分別入手,深度剖析自動(dòng)駕駛感知模塊發(fā)展的新浪潮。
01??高階智能駕駛感知模塊:汽車成為機(jī)器生物的第一步
實(shí)現(xiàn)高級(jí)輔助駕駛乃至自動(dòng)駕駛的第一步就是感知,如何更準(zhǔn)確、高效地感知到路面信息是智駕系統(tǒng)良好運(yùn)轉(zhuǎn)的起點(diǎn)。路面信息包括靜態(tài)和動(dòng)態(tài)兩類,靜態(tài)信息包括墻壁、立桿、車道線、車位線、斑馬線等,以及其他路面障礙物,動(dòng)態(tài)信息則是指行人、車輛等其他交通參與方。 正如時(shí)任特斯拉Autopilot負(fù)責(zé)人Andrej Karpathy在2021年Tesla AI DAY上所講,自動(dòng)駕駛研發(fā)像是“從頭開始合成人造動(dòng)物”,從人眼所及到大腦所感,信息在人類頭腦中經(jīng)歷了2D到3D的轉(zhuǎn)換,而這一轉(zhuǎn)換同樣是高階智能駕駛的感知模塊所需要學(xué)習(xí)的能力。

02 ?感知路線:純視覺(jué)與多模態(tài)融合兩條路線并行
從感知角度來(lái)劃分,目前高階智能駕駛領(lǐng)域分為兩派,一派為特斯拉和mobileye堅(jiān)持的純視覺(jué)感知技術(shù)路線,其余則大多選擇多傳感器融合的技術(shù)路線。 純視覺(jué)感知方案只需將攝像頭收集到的圖像數(shù)據(jù)進(jìn)行特征提取、處理、轉(zhuǎn)化為3D數(shù)據(jù);而多傳感器融合的方案采用攝像頭與激光雷達(dá)相結(jié)合,通過(guò)多種工作原理提升感知精度,也能在某一設(shè)備失效的情況下起到冗余的安全防護(hù)作用。但多傳感器方案中,不同工作原理下,傳感器收集到的數(shù)據(jù)類型、所處坐標(biāo)系都不同,攝像頭收集到的視覺(jué)數(shù)據(jù)屬于2D圖像空間,激光雷達(dá)獲得的點(diǎn)云數(shù)據(jù)屬于3D空間,處理與融合這些數(shù)據(jù)的策略及路徑成為有效保留數(shù)據(jù)信息的關(guān)鍵。
03? 融合方式:不同邏輯下數(shù)據(jù)處理各有利弊
具體來(lái)講,基于融合的不同位置,可以分為前、中、后融合三種方式,三種方式分別發(fā)生在數(shù)據(jù)處理的不同階段,在信息保留、算力使用、通信速率等多方面也具有不同特征。

3.1? 后融合:應(yīng)用廣泛但存在先驗(yàn)式局限
在BEV大范圍應(yīng)用前,最常用的是后融合方案,也稱為“目標(biāo)級(jí)融合”。 顧名思義,后融合方案中,不同傳感器獲得的數(shù)據(jù)通過(guò)不同網(wǎng)絡(luò)算法獨(dú)立處理,處理后得到各自的目標(biāo)數(shù)據(jù),再將目標(biāo)數(shù)據(jù)在決策層由主處理器進(jìn)行融合。

例如,針對(duì)圖像數(shù)據(jù),算法逐張?zhí)崛?D特征后,對(duì)應(yīng)轉(zhuǎn)化到3D空間中,得出物體邊界信息;針對(duì)點(diǎn)云數(shù)據(jù),算法直接進(jìn)行3D檢測(cè)得到對(duì)應(yīng)結(jié)果。各自處理后,所有的輸出結(jié)果通過(guò)基于規(guī)則的(rule-based)融合方式融合到同一坐標(biāo)系中。 可見(jiàn),在融合之前,不同數(shù)據(jù)處于各自的處理通道中,算法只需適配對(duì)應(yīng)類型的數(shù)據(jù),融合模塊設(shè)置不同場(chǎng)景、不同傳感器的置信度,最終輸出融合結(jié)果用于決策。整體更易解耦,既易于整車廠自主研發(fā),也便于Tier 1按照下游需求進(jìn)行模塊化定制。 但是,正是由于后融合方式是基于規(guī)則處理的,因而存在“從結(jié)果反推過(guò)程”的先驗(yàn)式思路,無(wú)論是不同數(shù)據(jù)處理過(guò)程中的目標(biāo)識(shí)別,還是對(duì)傳感器置信度的設(shè)置,都是以預(yù)設(shè)結(jié)果為導(dǎo)向的,不僅會(huì)造成信息損耗、成本升高,也難以突破當(dāng)下認(rèn)知局限。
3.2 前融合:融合形成超級(jí)傳感數(shù)據(jù),但算力要求高
與之對(duì)應(yīng)的,是傳感器前融合方案,也稱為“數(shù)據(jù)級(jí)融合”。 前融合方案將融合步驟前置,所有傳感器的識(shí)別結(jié)果連同其他自動(dòng)駕駛所需數(shù)據(jù),統(tǒng)一融合到為一整組數(shù)據(jù),再將融合后的所有數(shù)據(jù)依據(jù)目標(biāo)進(jìn)行感知。 前融合方案下,相當(dāng)于不同的傳感器組合為一個(gè)更加超級(jí)、多能的傳感器,既能看圖、又能探測(cè),感知算法無(wú)需區(qū)分?jǐn)?shù)據(jù)來(lái)源與類型,直接進(jìn)行綜合處理。

顯然,前融合方案的邏輯更加類似于人眼到大腦的工作方式,將所有數(shù)據(jù)整體分析,增強(qiáng)了數(shù)據(jù)關(guān)聯(lián)性,也減少了信息丟失。 但與此同時(shí),異構(gòu)數(shù)據(jù)的融合對(duì)于算法也有著極大的考驗(yàn)。首先龐大的數(shù)據(jù)量對(duì)于存儲(chǔ)能力、算力都有較高要求,而且由于坐標(biāo)系的不同,不同數(shù)據(jù)間的轉(zhuǎn)換效率和效果也需要不同的算法邏輯來(lái)實(shí)現(xiàn)。
3.3 中融合:平衡規(guī)則局限與算力要求,適應(yīng)BEV視角
基于架構(gòu)特性和操作可行性,目前業(yè)內(nèi)更青睞中融合方案,即“特征級(jí)融合”,這一方案也更適合BEV視角。

相較于前、后融合,中融合將特征提取置于融合之前,但將數(shù)據(jù)感知置于融合之后。換言之,中融合方案先通過(guò)神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)有效特征,將有效特征與BEV空間特征相融合,最終輸出BEV視角下的整套數(shù)據(jù),用于決策層的感知和輸出。 中融合方案中,數(shù)據(jù)處理更直接,信息損耗更少,相應(yīng)地,算力需求也一定程度降低,研發(fā)重點(diǎn)來(lái)到了神經(jīng)網(wǎng)絡(luò)模型的更新上。隨著深度學(xué)習(xí)的發(fā)展,Transformer的應(yīng)用突破了過(guò)往算法依賴人為規(guī)則所帶來(lái)的認(rèn)知局限和邏輯上的反復(fù)。 04 ?視角轉(zhuǎn)換:前視放射轉(zhuǎn)為俯視全景,BEV+Transformer彌補(bǔ)原有不足 不同融合方案的選擇和迭代的背后,是感知視角的根本性轉(zhuǎn)換。
4.1 2D直視圖+CNN:感知不夠全面、連貫,后融合學(xué)習(xí)速度慢
在此之前,傳統(tǒng)的自動(dòng)駕駛技術(shù)可以概括為“2D 直視圖+CNN”時(shí)代,路況感知信號(hào)由相機(jī)收集到的 2D 圖像和雷達(dá)收集到的 3D 圖像組成,感知數(shù)據(jù)基于每個(gè)傳感器的位置形成放射圖像,不同感知結(jié)果通過(guò) CNN(卷積神經(jīng)網(wǎng)絡(luò))進(jìn)行后融合,通過(guò)大量計(jì)算統(tǒng)一升維到 3D,符合 3D 狀態(tài)下車機(jī)行駛的坐標(biāo)系。 這樣的方式存在很多欠缺和隱患: · 畫面遮擋部分難以預(yù)測(cè),矩形框標(biāo)注損失細(xì)節(jié),不夠精確; · 高度或深度方面認(rèn)知存在誤差,坡度影響難以準(zhǔn)確預(yù)測(cè); · 缺少時(shí)間信息,感知與預(yù)測(cè)的連續(xù)性難以確認(rèn); · 多種感知信息進(jìn)行后融合,時(shí)間與人力成本較高。 在這種情況下,感知的思路是將“所見(jiàn)”與“所學(xué)”相對(duì)應(yīng),試圖成功“認(rèn)出”路上有什么,就難免出現(xiàn)“擋住了所以沒(méi)看見(jiàn)”“看見(jiàn)了但認(rèn)錯(cuò)了”“不認(rèn)識(shí)就當(dāng)不存在”這些看似好笑、實(shí)則危險(xiǎn)的情況。
4.2 BEV+Transformer:上帝視角減少前視局限,多模態(tài)數(shù)據(jù)融合是關(guān)鍵
1)路徑:從2D到3D到4D,算法推動(dòng)端到端優(yōu)化 BEV+Transformer方案應(yīng)運(yùn)而生。 BEV(Bird's Eye View),是指一種鳥瞰式的視角或坐標(biāo)系,可以立體描述感知到的現(xiàn)實(shí)世界,相當(dāng)于在車輛正上方10-20米處向下俯視車輛及周圍環(huán)境,也被叫做“上帝視角”。相對(duì)應(yīng)的,BEV也代指將視覺(jué)信息由圖像空間端到端地轉(zhuǎn)換到BEV空間下的技術(shù)。 在BEV視圖中,道路信息自上而下展示在以自車為中心的坐標(biāo)系中,避免了原先前視放射視角下的尺度、遮擋等感知問(wèn)題,信息展示更加全面。但視角變化后深度的估計(jì)難度增大,前融合方案的處理難度增大,如何創(chuàng)新算法,將不同特征最優(yōu)化表達(dá)是目前BEV研究中的重點(diǎn)。 ?
盡管各家研發(fā)進(jìn)度和細(xì)節(jié)略有不同,但BEV+Transformer方案的整體思路基本一致:“輸入-提取-轉(zhuǎn)換-融合-時(shí)序-輸出”,并在這個(gè)過(guò)程中完成“2D到3D到4D”的轉(zhuǎn)換。 · 輸入:將多個(gè)攝像頭數(shù)據(jù)輸入到共享的骨干網(wǎng)絡(luò)(Backbone) · 提?。汗歉删W(wǎng)絡(luò)提取攝像頭數(shù)據(jù)中的特征(feature) · 轉(zhuǎn)換:所有源于攝像頭數(shù)據(jù)的特征轉(zhuǎn)換到BEV空間中(2D->3D) · 融合:圖像數(shù)據(jù)特征與其他傳感器數(shù)據(jù)特征融合 · 時(shí)序:增加時(shí)序信息,形成具有時(shí)空連續(xù)性的感知信息(3D->4D) · 輸出:輸出感知結(jié)果,包括靜態(tài)語(yǔ)義地圖、動(dòng)態(tài)目標(biāo)檢測(cè)以及運(yùn)動(dòng)預(yù)測(cè)等,用于決策規(guī)控 Transformer作為一種新型神經(jīng)網(wǎng)絡(luò)架構(gòu),相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(如CNN),可以直接進(jìn)行2D、3D不同序列之間的轉(zhuǎn)換。Transformer采用交叉注意力機(jī)制,并行訓(xùn)練數(shù)據(jù),在跨模態(tài)融合以及時(shí)序融合過(guò)程中,能夠更加全面地在空間時(shí)序上建模,形成時(shí)序融合下的4D空間信息,從而使感知結(jié)果更加連續(xù)、穩(wěn)定。 在此基礎(chǔ)上,BEV算法進(jìn)一步迭代為Occupancy Networks(占用網(wǎng)絡(luò)),更加直接地打造3D空間。有別于感知2D圖像、提取像素(pixel)轉(zhuǎn)化為3D特征,Occupancy Networks直接感知3D空間中的體素(voxel),也就是將世界劃分為多個(gè)大小一致的立方體,快速識(shí)別每個(gè)體素是否被占用,繼而判斷車輛是否要躲避。Occupancy Networks可以在10ms內(nèi)完成計(jì)算,感知更高效、結(jié)果更精準(zhǔn),將BEV空間在高度上進(jìn)行了進(jìn)一步擴(kuò)展。
2)優(yōu)勢(shì):全局視野、4D時(shí)空,感知更穩(wěn)定,預(yù)測(cè)更可靠 整體來(lái)講,基于Transformer的BEV感知技術(shù),對(duì)過(guò)往感知過(guò)程中的弊病給出了不同思路的解決方案,具有明顯優(yōu)勢(shì)。 1. 俯視圖少有遮擋,算法也可以對(duì)被遮擋區(qū)域進(jìn)行預(yù)測(cè) 2. 異構(gòu)數(shù)據(jù)進(jìn)行特征級(jí)融合,減少層層處理以及先驗(yàn)規(guī)則帶來(lái)的信息丟失 3. 多模態(tài)數(shù)據(jù)特征在同一空間中融合,信息關(guān)聯(lián)性更強(qiáng) 4. 引入時(shí)序信息,感知結(jié)果更連續(xù)穩(wěn)定 5. 多模態(tài)數(shù)據(jù)統(tǒng)一在以自車為中心的同一坐標(biāo)系中,下游規(guī)控模塊提取更高效 6. 感知任務(wù)在BEV空間運(yùn)行,迭代更快,可實(shí)現(xiàn)端到端優(yōu)化 3)應(yīng)用:處理多類長(zhǎng)尾場(chǎng)景,加速去高精地圖 因此,BEV+Transformer方案能夠處理多種自動(dòng)駕駛的corner case場(chǎng)景。
1. 感知復(fù)雜道路:在交通擁堵、路口復(fù)雜、路面不規(guī)則等情況下,BEV+Transformer以連續(xù)的俯視視角生成更全面的感知情況,以做出更可靠的路徑規(guī)劃;甚至在路面狹窄、有遮擋的情況下,俯視視角、跨模態(tài)融合、注意力機(jī)制下的算法,這些都能夠使車輛更好地識(shí)別周邊環(huán)境。
2. 應(yīng)對(duì)惡劣天氣:在雨雪霧霾等惡劣天氣條件下,攝像頭和激光雷達(dá)的感知效果都會(huì)受到影響,BEV+Transformer方案相比能夠減少損耗,避免各傳感器“各自為戰(zhàn)”。
3. 應(yīng)對(duì)動(dòng)態(tài)交通:高階智能駕駛不僅需要在常規(guī)交通中平穩(wěn)運(yùn)行,還需要對(duì)并車、合流等復(fù)雜任務(wù)作出反應(yīng),另外還需要應(yīng)對(duì)交通事故、路段封閉等突發(fā)情況。BEV+Transformer能夠?qū)崟r(shí)輸出交通狀況,并對(duì)路面行人、車輛作出預(yù)測(cè),便于智駕系統(tǒng)做出更加合適的應(yīng)急策略。 更重要的是,BEV+Transformer的方案將靜態(tài)道路信息與動(dòng)態(tài)道路參與方統(tǒng)一到了同一個(gè)坐標(biāo)系下,通過(guò)實(shí)時(shí)感知與轉(zhuǎn)換,在行駛中即可實(shí)時(shí)生成“活地圖”,推動(dòng)自動(dòng)駕駛中“感知-決策-規(guī)劃”的任務(wù)進(jìn)行。 這也就意味著高精地圖不再成為強(qiáng)需求。 對(duì)于車企來(lái)講,使用高精地圖一直面臨著“資質(zhì)門檻高、采購(gòu)成本高、維護(hù)成本高”的“三高”難題,如果能夠?qū)EV+Transformer上車使用,擺脫高精地圖將指日可待,在當(dāng)下“以價(jià)換量”的市場(chǎng)競(jìng)爭(zhēng)中,又能向前一大步。
審核編輯:黃飛
?
電子發(fā)燒友App
























評(píng)論