[首發(fā)于智駕最前沿微信公眾號]之前和大家聊過一個(gè)話題,那就是激光雷達(dá)線束對算力的影響。攝像頭作為自動駕駛非常關(guān)鍵的另一個(gè)感知硬件,其像素大小是否會影響算力消耗?
其實(shí)從早期的1.2兆像素(1.2MP)到如今主流的8兆像素(8MP),甚至更高分辨率,像素的提升直接決定了車輛能夠“看多遠(yuǎn)”和“看多清”。不同于激光雷達(dá),攝像頭像素的增加會對整車算力平臺提出更為嚴(yán)苛的要求。這種要求不僅體現(xiàn)在原始數(shù)據(jù)的吞吐量上,更體現(xiàn)在后端神經(jīng)網(wǎng)絡(luò)推理的復(fù)雜度、圖像信號處理器(ISP)的處理壓力以及內(nèi)存帶寬的占用上。

圖像信號處理與物理吞吐的連鎖反應(yīng)
攝像頭之所以在自動駕駛中非常重要,主要是因?yàn)槠鋵y理、色彩及交通標(biāo)志等語義信息的捕捉能力非常優(yōu)異,這是激光雷達(dá)和毫米波雷達(dá)難以企及的。隨著自動駕駛等級從L2向L4/L5邁進(jìn),系統(tǒng)需要識別更遠(yuǎn)距離的小物體,這便驅(qū)動了攝像頭從低分辨率向高分辨率的進(jìn)化。
高像素?cái)z像頭帶來的直接優(yōu)勢是更高的像素密度,這意味著在相同的視野范圍內(nèi),遠(yuǎn)端物體能分得更多的像素點(diǎn),從而提高深度學(xué)習(xí)模型對該物體分類和檢測的準(zhǔn)確率。
像素的增加除了帶來性能上的提升,更帶來了巨大的數(shù)據(jù)吞吐壓力。圖像傳感器捕獲的每一幀畫面,本質(zhì)上都是海量電信號的集合。以一個(gè)8MP的攝像頭為例,在60幀每秒(fps)的運(yùn)行頻率下,每秒產(chǎn)生的數(shù)據(jù)點(diǎn)高達(dá)4.8億個(gè)。在自動駕駛感知方案中,全車可能配備11個(gè)甚至更多的攝像頭,這意味著每秒鐘會有數(shù)千兆字節(jié)(GB)的原始圖像信號涌入計(jì)算平臺。

圖片源自:網(wǎng)絡(luò)
這種量級的數(shù)據(jù)流首先沖擊的就是圖像信號處理器(ISP)。ISP負(fù)責(zé)將傳感器捕獲的“裸數(shù)據(jù)”轉(zhuǎn)化為機(jī)器可理解的格式,這中間涉及去噪、色彩校正、動態(tài)范圍壓縮等一系列復(fù)雜的數(shù)學(xué)運(yùn)算。
像素越高,ISP在單位時(shí)間內(nèi)需要處理的像素點(diǎn)就越多。ISP雖然是高度集成的硬件模塊,但其功耗和發(fā)熱量仍會隨處理負(fù)荷線性增長。為了應(yīng)對這一挑戰(zhàn),汽車芯片架構(gòu)正經(jīng)歷從分立ISP向集成SoC(系統(tǒng)級芯片)轉(zhuǎn)變。將ISP功能整合進(jìn)主算力芯片,可以顯著減少圖像數(shù)據(jù)在不同板載組件之間傳輸時(shí)的延遲和功耗。
即便如此,高分辨率帶來的“數(shù)據(jù)搬運(yùn)費(fèi)”依然昂貴。在自動駕駛計(jì)算單元內(nèi)部,數(shù)據(jù)從接口到內(nèi)存、再到處理器核心的每一次遷移,都需要消耗微焦耳級別的能量。在數(shù)億像素的規(guī)模下,這種細(xì)微的能耗累積起來,便會構(gòu)成大量的系統(tǒng)輔助功耗。
內(nèi)存帶寬是另一個(gè)與像素息息相關(guān)的關(guān)鍵指標(biāo)。當(dāng)高像素圖像數(shù)據(jù)被緩存進(jìn)內(nèi)存以供AI引擎讀取時(shí),它會占用大量的LPDDR5等高速內(nèi)存資源。如果帶寬不足,圖像處理就會出現(xiàn)掉幀或延遲,這在高速行駛的場景下是極其危險(xiǎn)的。

從局部特征到全局注意力的計(jì)算
真正讓高像素?cái)z像頭成為算力消耗大戶的,是后端的深度學(xué)習(xí)推理過程。目前主流的自動駕駛感知算法大多基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)或視覺變換器(Transformer)。在這些模型中,計(jì)算復(fù)雜度與輸入圖像的分辨率呈正相關(guān),而在一些先進(jìn)的注意力機(jī)制架構(gòu)中,計(jì)算量的增長甚至是像素?cái)?shù)量的平方關(guān)系。
在CNN架構(gòu)下,神經(jīng)網(wǎng)絡(luò)通過一個(gè)個(gè)“卷積核”在圖像上滑動來提取特征。當(dāng)圖像分辨率從2MP增加到8MP時(shí),特征圖的大小也同步擴(kuò)張,這意味著卷積操作的次數(shù)增加了四倍。
雖然可以通過步長跳躍或池化技術(shù)來壓縮特征圖,但這樣做會犧牲高像素帶來的細(xì)小物體檢測能力,從而抵消了升級傳感器的初衷。
而對于更先進(jìn)的Transformer架構(gòu),它需要計(jì)算圖像中不同區(qū)域之間的關(guān)聯(lián)性。這種“全局注意力機(jī)制”在處理百萬級像素的圖像時(shí),會產(chǎn)生極其龐大的相關(guān)性矩陣,對算力芯片的算術(shù)邏輯單元(ALU)造成巨大的并發(fā)壓力。
下表對比了典型視覺感知模型在不同輸入分辨率下的計(jì)算需求(以FLOPs衡量):
| 模型類型 | 輸入分辨率 | 像素規(guī)模(MP) | 典型計(jì)算量(FLOPs) | 算力占用比(相對1MP) |
| 輕量級CNN(YOLO-n) | 640×640 | 0.4 | ~8GFLOPs | 0.4x |
| 主流CNN(YOLO-m) | 1280×1280 | 1.6 | ~50GFLOPs | 1.6x |
| 高端視覺Transformer | 1024×1024 | 1.0 | ~150GFLOPs | 1.0x |
| 高端視覺Transformer | 2048×2048 | 4.0 | ~600+GFLOPs | 4.0x+ |
可以看到,隨著分辨率的提升,AI芯片每秒需要執(zhí)行的浮點(diǎn)運(yùn)算次數(shù)迅速攀升。為了在有限的芯片面積內(nèi)實(shí)現(xiàn)這種高性能,像英偉達(dá)Orin或特斯拉FSD的芯片必須集成數(shù)以千計(jì)的核心,這直接導(dǎo)致了SoC功耗的上升。
此外,為了訓(xùn)練能處理高像素的模型,云端訓(xùn)練的算力需求也呈指數(shù)級增長。如果希望在不增加延遲的前提下提升分辨率,就必須尋找更高效的算子或采用模型量化技術(shù),但這本質(zhì)上是在利用算法的精細(xì)化去對沖像素增長帶來的資源赤字。
自動駕駛感知不僅是檢測障礙物,還包括語義分割,即給圖像中的每一個(gè)像素點(diǎn)貼上“屬性標(biāo)簽”(路面、人行道、樹木、天空)。在高像素模式下,這種全像素級別的分類任務(wù)會讓算力平臺陷入無休止的計(jì)算中。
目前行業(yè)內(nèi)的應(yīng)對策略是采用“非均勻采樣”或“多尺度融合”,即在視野中心使用高分辨率進(jìn)行精細(xì)識別,而在視野邊緣或不重要的天空區(qū)域使用低分辨率,以此來平衡精度與算力。

為什么激光雷達(dá)能減負(fù)而攝像頭只能增重?
激光雷達(dá)通過發(fā)射激光束并測量回波時(shí)間來直接獲取三維空間坐標(biāo)。激光雷達(dá)的線束越多,點(diǎn)云就會越密集。對于后端算法來說,點(diǎn)云越密集,物體的輪廓就越清晰,算法不再需要耗費(fèi)大量的算力去猜測物體的距離或尺寸,只需要簡單的聚類和幾何分割就能完成感知任務(wù)。因此,在某種程度上,激光雷達(dá)是用硬件的昂貴和數(shù)據(jù)的稠密,換取了感知邏輯的簡化。
攝像頭的情況則恰恰相反。作為一種被動傳感器,攝像頭捕獲的是三維世界在二維平面上的投影。即使像素達(dá)到了8MP甚至更高,它依然缺乏直接的深度信息。感知系統(tǒng)必須通過復(fù)雜的神經(jīng)網(wǎng)絡(luò),根據(jù)物體的紋理、陰影、重疊關(guān)系或雙目視差來反推三維信息。
這意味著,攝像頭像素的增加,只是提供了更豐富的“猜測素材”,而不是“現(xiàn)成的答案”。算法為了處理這些更豐富的細(xì)節(jié),就需要更深的網(wǎng)絡(luò)層數(shù)和更復(fù)雜的邏輯,從而推高了整體算力消耗。
這種差異決定了兩種傳感器的算力邊際效益,激光雷達(dá)線束的提升在跨過某個(gè)閾值后,能夠有效降低算法補(bǔ)盲和糾錯(cuò)的難度,甚至可能減少后端融合算法的復(fù)雜性。
而攝像頭像素的提升,則更像是一場無止境的“計(jì)算競賽”,因?yàn)橄袼卦蕉?,潛在的可解析信息量就越大,系統(tǒng)為了不浪費(fèi)這些信息,不得不持續(xù)投入更多的算力進(jìn)行深挖。
這種也解釋了為什么像特斯拉這樣堅(jiān)持“純視覺”路線的公司,必須持續(xù)升級其板載計(jì)算機(jī)(如從HW3到HW4,再到計(jì)劃中的HW5)。因?yàn)榧円曈X方案需要將所有的環(huán)境理解壓力都壓在神經(jīng)網(wǎng)絡(luò)上,而更高的像素又是提升感知識別距離的唯一途徑。
為了獲取更長的剎車反應(yīng)距離,系統(tǒng)必須看清更遠(yuǎn)的像素,而為了看清更遠(yuǎn)的像素,系統(tǒng)就必須擁有能處理這些海量數(shù)據(jù)的更強(qiáng)大腦。

如何破解?
為了解決上述的問題,自動駕駛領(lǐng)域正在積極探索更加智能的資源管理策略。其中最成熟的方案之一是“區(qū)域關(guān)注”(Region of Interest,ROI)策略。類似于人類駕駛員在駕駛時(shí)會重點(diǎn)觀察后視鏡和正前方,忽略無關(guān)的背景,自動駕駛感知算法也可以動態(tài)地為圖像中的不同區(qū)域分配計(jì)算權(quán)重。
在實(shí)際應(yīng)用中,系統(tǒng)可以先用一個(gè)輕量級的小模型在大圖上掃描出可能存在的車輛或行人的“候選框”,然后再對這些特定區(qū)域調(diào)用高像素?cái)?shù)據(jù)進(jìn)行精細(xì)識別。這種方法不僅保留了高像素帶來的遠(yuǎn)距離識別優(yōu)勢,更避免了在處理整幅高像素圖像時(shí)產(chǎn)生的冗余運(yùn)算。
還有一個(gè)方向是事件攝像頭(Event-based Camera)的應(yīng)用。不同于傳統(tǒng)攝像頭無論畫面是否變化都按固定幀率輸出圖像,事件攝像頭只輸出光強(qiáng)發(fā)生改變的像素點(diǎn)。

圖片源自:網(wǎng)絡(luò)
這意味著如果畫面保持靜止,該傳感器的輸出幾乎為零;當(dāng)有物體快速劃過時(shí),它能以微秒級的響應(yīng)速度捕獲邊緣信息。這種基于“變化”的感知模式天然地實(shí)現(xiàn)了數(shù)據(jù)稀疏化,能夠?qū)⒑蠖颂幚砥鞯乃懔ο慕档蛶讉€(gè)數(shù)量級。
目前,一些技術(shù)方案正在嘗試將傳統(tǒng)高像素?cái)z像頭與高幀率事件攝像頭進(jìn)行融合,利用前者提供靜態(tài)語義,利用后者提供動態(tài)捕捉,從而在不增加總帶寬的前提下提升系統(tǒng)在極端動態(tài)場景下的安全性。
硬件架構(gòu)的演進(jìn)也在從底層緩解像素壓力。傳統(tǒng)的計(jì)算架構(gòu)中,圖像數(shù)據(jù)需要從傳感器經(jīng)過漫長的路徑到達(dá)CPU或GPU進(jìn)行處理,這中間的搬運(yùn)能耗極高。新興的“感存算一體化”技術(shù)嘗試將計(jì)算邏輯直接集成在圖像傳感器的周邊電路中,甚至直接在內(nèi)存芯片內(nèi)進(jìn)行基礎(chǔ)的卷積運(yùn)算。
通過在數(shù)據(jù)產(chǎn)生的源頭就過濾掉無效像素或完成基礎(chǔ)的去噪和縮放,可以極大地減輕主SoC的負(fù)擔(dān)。這種從“暴力計(jì)算”向“精細(xì)化感知”的轉(zhuǎn)變,也代表了自動駕駛感知的未來趨勢。

最后的話
自動駕駛中攝像頭像素的提升確實(shí)會對算力消耗產(chǎn)生巨大的推動作用。這不僅是因?yàn)閿?shù)據(jù)量的簡單翻倍,更是因?yàn)楦S富的視覺信息誘導(dǎo)了更復(fù)雜的算法挖掘。雖然激光雷達(dá)的線束增加可以在某種程度上“簡化”感知邏輯,但攝像頭的像素演進(jìn)卻始終伴隨著算力的極限壓榨。
審核編輯 黃宇
-
攝像頭
+關(guān)注
關(guān)注
61文章
5101瀏覽量
103305 -
自動駕駛
+關(guān)注
關(guān)注
794文章
14923瀏覽量
180515
發(fā)布評論請先 登錄
自動駕駛攝像頭像素如何影響算力?
評論