自動駕駛環(huán)境感知系統(tǒng)：神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制

本系列文章著重講解「自動駕駛環(huán)境感知算法」相關(guān)知識，由特約作者「巫婆塔里的工程師」編寫，「焉知新能源汽車」媒體獨(dú)家發(fā)布。

作為關(guān)注自動駕駛環(huán)境感知的專欄，對這部分內(nèi)容的介紹當(dāng)然也是必不可少的。關(guān)于注意力機(jī)制和 Transformer 的文章非常多，其中也不乏非常好的分析和解讀。

自動駕駛環(huán)境感知的一個核心任務(wù)是「物體檢測」，因此本文也會側(cè)重從這個角度來進(jìn)行介紹。

這次的注意力機(jī)制專題計劃包含三篇文章：

第一篇文章（也就是本篇文章）里我會回顧一下視覺感知算法尤其是物體檢測算法中常用的一些注意力機(jī)制。

第二篇文章會介紹 Transformer 和自注意力機(jī)制在物體檢測領(lǐng)域的應(yīng)用和最新進(jìn)展，也會包括一些學(xué)術(shù)界和工業(yè)界在這個方向的的討論。

第三篇文章會介紹一下最近興起的 BEV 感知方法，其中交叉注意力機(jī)制起到了非常關(guān)鍵的作用。

近些年來，注意力機(jī)制在人工智能領(lǐng)域可以說是大火特火。

基于自注意力機(jī)制的 Transformer 模型首先在自然語言處理（NLP）領(lǐng)域取得了顯著的性能提升，取代了之前常用的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)（RNN）。

之后，Transformer 也被應(yīng)用到了計算機(jī)視覺領(lǐng)域，在圖像分類、物體檢測、語義分割等視覺任務(wù)上都展示出了非常強(qiáng)大的潛力。

在自動駕駛系統(tǒng)中，視覺感知是非常關(guān)鍵的一個模塊。因此，Transformer 模型自然也得到了廣泛的關(guān)注。

01、早期的注意力機(jī)制

「注意力（Attention）」這個詞最近幾年在人工智能的各個領(lǐng)域都被頻繁提及，說的大家都有點(diǎn)審美疲勞了。

其實(shí)注意力也不是什么特別新的概念，就像卷積神經(jīng)網(wǎng)絡(luò)（CNN）一樣，概念其實(shí)幾十年前就有了，只是當(dāng)時受限于數(shù)據(jù)量、算力以及訓(xùn)練方法，其效果并不理想，因此也沒有得到廣泛的關(guān)注。

在計算機(jī)視覺領(lǐng)域，注意力機(jī)制一直以來都是熱門的研究課題之一，只不過早期的研究主要關(guān)注如何提取數(shù)據(jù)中具有顯著性（Saliency）的部分。

這種方法一般采用自底向上的方式，從底層特征出發(fā)，通過預(yù)先定義的一些指標(biāo)來計算圖像或者視頻數(shù)據(jù)中具有顯著性的部分。

這里一個最典型的例子就是：在一副動物的照片中，算法會將動物而不是背景作為顯著性區(qū)域。

這種顯著性提取方法雖然與人類的感知有相似之處，但其實(shí)更像是一種前景背景分割，其隱含的假設(shè)就是前景比背景更具有顯著性。

這種簡單的數(shù)據(jù)及其隱含的簡單假設(shè)在實(shí)際應(yīng)用中很可能是無法滿足要求的。

實(shí)際應(yīng)用中通常我們都會有一個特定的任務(wù)，因此，顯著性的提取也需要由任務(wù)來進(jìn)行驅(qū)動，也就是說采用?「自頂向下」?的方式。

圖像中的顯著性區(qū)域提取前面說了，物體檢測是視覺感知中的關(guān)鍵任務(wù)之一。因此，下面就以物體檢測這個任務(wù)為例來介紹一下自頂向下的注意力。

其實(shí)，在物體檢測的發(fā)展歷程中，對注意力的研究是一直存在的，只是有的時候其表現(xiàn)形式并不太明顯。

在神經(jīng)網(wǎng)絡(luò)興起之前，物體檢測主要依賴于特征和分類器設(shè)計。為了提高檢測的效率，研究者們會首先用簡單的特征過濾掉圖像中大部分的背景區(qū)域，然后再用復(fù)雜的特征來處理剩下的區(qū)域。

這是一種典型的「由粗到精」的過程，在物體檢測發(fā)展的早期非常常見。這里「剩下的區(qū)域」其實(shí)就是顯著性區(qū)域，通過快速的顯著性區(qū)域提取，檢測算法的運(yùn)行速度可以得到極大的提升。

即使是在神經(jīng)網(wǎng)絡(luò)被廣泛用于物體檢測以后，這種由粗到精的策略還是存在其中的。

大家回想一下基于神經(jīng)網(wǎng)絡(luò)的兩階段檢測器，第一階段的目標(biāo)就是得到圖像中的感興趣區(qū)域（ROI），然后在第二階段中再對 ROI 進(jìn)行進(jìn)一步的處理，最終得到目標(biāo)的類別、位置、大小等信息。

這里的 ROI 其實(shí)也就是顯著性區(qū)域的概念，與傳統(tǒng)方法中采用簡單特征快速得到的顯著性區(qū)域沒有本質(zhì)的差別。

但是，這里我們需要注意的是，無論是傳統(tǒng)方法還是基于神經(jīng)網(wǎng)絡(luò)的方法，模型都是通過訓(xùn)練得到的，顯著性區(qū)域的提取也都是與下游任務(wù)相關(guān)的，因此它們都是任務(wù)驅(qū)動的自頂向下的方式。

兩階段物體檢測網(wǎng)絡(luò) R-CNN

02、神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制

通過以上的分析，我們大致可以把注意力機(jī)制分為「自底向上」和「自頂向下」兩種。

前者不關(guān)聯(lián)特定的任務(wù)，而后者則是由任務(wù)驅(qū)動的。

在大數(shù)據(jù)時代，引起人們更多關(guān)注的自然是?「任務(wù)驅(qū)動」，或者說?「數(shù)據(jù)驅(qū)動」?的方式。

上一節(jié)中介紹的自頂向下的注意力機(jī)制，無論是在傳統(tǒng)方法中還是深度學(xué)習(xí)方法中應(yīng)用，都是作用在 ROI 這個級別上，是一種相對粗粒度的注意力表達(dá)方式。

除了這種方式以外，現(xiàn)階段大家所討論的更多的是一種細(xì)粒度的注意力，在神經(jīng)網(wǎng)絡(luò)模型中通常表現(xiàn)為：

通道注意力；

空間注意力；

分支注意力；

自注意力；

交叉注意力。

下面就來介紹一下這幾種比較常用的注意力機(jī)制。

通道注意力

在神經(jīng)網(wǎng)絡(luò)模型中，每一層的輸入和輸出都有多個特征通道，每個通道描述了輸入數(shù)據(jù)中不同的信息，比如物體的紋理、顏色、形狀等。對于不同的下游任務(wù)，不同信息的重要性也不盡相同。

舉個簡單的例子，車輛檢測可能更依賴于形狀信息，而車道線檢測可能更依賴于紋理和顏色信息。

那么對于一個通用的物體檢測網(wǎng)絡(luò)，其特征通道會包含各種各樣的信息。當(dāng)輸入圖像中出現(xiàn)了車輛時，神經(jīng)網(wǎng)絡(luò)就會自動的給包含形狀信息的通道更大的權(quán)重，以更好的完成車輛檢測的任務(wù)。

當(dāng)然這里只是一個直觀的解釋，實(shí)際的通道加權(quán)過程可能非常復(fù)雜，并不一定具有很好的解釋性。

以上就是通道注意力的基本設(shè)計動機(jī)。

這里有一點(diǎn)需要注意的是：通道的權(quán)重并不是離線學(xué)習(xí)好的，而是在線根據(jù)輸入數(shù)據(jù)進(jìn)行調(diào)整的。

這種動態(tài)的注意力機(jī)制可以使神經(jīng)網(wǎng)絡(luò)在處理不同任務(wù)時具有非常好的靈活性。

通道注意力的基本做法是：為每一個通道計算一個權(quán)重。

這個權(quán)重是通過多個通道互相作用（全局或者局部的操作）得到的。這里一個重要的步驟是「提取通道的描述特征」，一般會采用全局的均值 Pooling 操作來得到每個通道的標(biāo)量（scalar）特征。

Squeeze&Excitation Attention，也可以簡稱 SE Attention，是一個典型的采用通道注意力的方法。

該方法對每個通道進(jìn)行全局的均值 Pooling 操作，從而將通道壓縮（Squeeze）到一個標(biāo)量值。

來自多個通道的標(biāo)量值形成一個向量，經(jīng)過全連接層（FC）的處理之后，再利用 Sigmoid 函數(shù)將其變換為 0 - 1 之間的值，而這些值就對應(yīng)了不同通道的權(quán)重。

這個給通道加權(quán)的過程對應(yīng)了 SE 中的 Excitation。

SE Attention 網(wǎng)絡(luò)結(jié)構(gòu)

以 SE Attention 為基準(zhǔn)，后續(xù)又有很多工作對其進(jìn)行了擴(kuò)展。

這些擴(kuò)展主要體現(xiàn)在兩方面：

一是通道特征的提??；

二是如何由通道特征得到權(quán)重。

對于前者，SE Attention 中采用全局均值 Pooling 來提取通道特征，這可以看作是一種一階的特征提取方法。

改進(jìn)的方案通常是采用二階或高階的復(fù)雜特征。

對于后者，SE Attention 中采用全連接層來生成權(quán)重，因此每一個通道的權(quán)重計算都包含了所有通道特征的信息，是一種全局的計算方式。

改進(jìn)的方案通常采用1D卷積操作來進(jìn)行局部的權(quán)重計算，也就是說每一個通道的權(quán)重計算只與其相鄰的部分通道相關(guān)。

ECA-Net中基于相鄰?fù)ǖ赖木植繖?quán)重計算方式

空間注意力

相對于通道注意力，空間注意力更容易理解。

與顯著性圖類似，空間注意力的基本思路也是賦予不同空間位置不同的權(quán)重，以此來體現(xiàn)模型所關(guān)注的區(qū)域。

不同的是，顯著性圖是自底向上的方式，與任務(wù)和數(shù)據(jù)沒有直接的關(guān)系，而空間注意力則完全是由「任務(wù)和數(shù)據(jù)驅(qū)動」的。

空間注意力與前面提到的物體檢測中由粗到精的策略類似，都是在空間維度上進(jìn)行操作。

但不同的是，物體檢測中的采用的是硬注意力機(jī)制，也就說會直接拋棄掉不關(guān)注的區(qū)域，而且這種操作是以物體框?yàn)榛A(chǔ)的。而空間注意力則是作用于圖像或者特征圖的像素，對每個像素進(jìn)行加權(quán)而不是選擇拋棄一些像素。

因此，空間注意力是看作是一種像素級別的軟注意力機(jī)制。

CBAM（Convolutional Block Attention Module）模型中提出了一種典型的空間注意力計算方法。

其基本思路是采用 Pooling 操作將特征圖的多個通道壓縮為一個通道，這個單通道特征圖經(jīng)過卷積和sigmoid操作后，可以得到一個值在 0 - 1 之間的空間注意力圖（spatial attention map）。

如下圖所示，CBAM 同時采用了 Max 和 Mean Pooling，然后將得到的特征拼接起來，再壓縮到一個通道。

CBAM 中的空間注意力計算

這種空間注意力的計算方式與通道注意力非常相似，只不過前者在通道維度上進(jìn)行壓縮，而后者在空間維度上進(jìn)行壓縮。

空間注意力最后表現(xiàn)為一張單通道的 2D Map，而通道注意力最后表現(xiàn)為一個 1D Vector。

空間注意力和通道注意力分別描述了數(shù)據(jù)不同維度的信息，因此也有研究者提出將二者進(jìn)行結(jié)合。

比如在 Pyramid Feature Attention 中，主干網(wǎng)絡(luò)中的底層特征被用來計算空間注意力，而高層特征被用來計算通道注意力。

通道注意力與任務(wù)相關(guān)性較大（參考上一節(jié)中物體檢測的例子），因此需要包含更多語義信息的高層特征，而基于高層語義信息的通道注意力會用于輔助空間注意力的生成，一定程度上也會幫助選擇空間上的細(xì)節(jié)信息。

Pyramid Feature Attention 中空間和通道注意力的結(jié)合

分支注意力

神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中經(jīng)常會出現(xiàn)多個分支，比如 ResNet 結(jié)構(gòu)中的 Shortcut 分支，Inception 結(jié)構(gòu)中不同大小的卷積核對應(yīng)的多個分支，金字塔結(jié)構(gòu)中不同分辨率的分支等。

這些分支的特征通常會被組合起來（Concat）形成新的特征，而組合的權(quán)重則是可學(xué)習(xí)的參數(shù)，通過網(wǎng)絡(luò)訓(xùn)練固定下來，與當(dāng)前輸入數(shù)據(jù)沒有關(guān)系，也就是說這些權(quán)重是靜態(tài)的。

為了使特征組合更加靈活，更好的適應(yīng)當(dāng)前的輸入數(shù)據(jù)，我們可以采用注意力機(jī)制來對不同分支進(jìn)行動態(tài)加權(quán)。

在 Highway Networks 中，類似于 ResNet 的兩個分支（一個shortcut分支，一個正常的特征變換分支）被賦予動態(tài)的權(quán)重。這個權(quán)重也是由輸入數(shù)據(jù)經(jīng)過一定的處理得到的。

下面公式中的 x 是輸入數(shù)據(jù)，同時也是 Shortcut 分支的輸出（不做任何處理，保持原數(shù)據(jù)），而 H 分支是正常的特征變換分支。

兩個分支分別用 T（transform gate）和 C（carry gate）進(jìn)行動態(tài)加權(quán)，T 和 C 也是輸入數(shù)據(jù) x 的函數(shù)，因此根據(jù)數(shù)據(jù)動態(tài)變化的。一般來說，我們可以認(rèn)為 C 和 T 是相關(guān)的，也就是 C = 1 - T，下面的公式也可以進(jìn)一步簡化。

在 Selective Kernel Network 中，不同的分支中采用不同大小的卷積核，以提取不同大小感受野的特征。

這種結(jié)構(gòu)與 Inception 網(wǎng)絡(luò)類似，但是不同的分支也是采用動態(tài)的加權(quán)方式進(jìn)行組合。

如下圖所示，兩個不同大小的卷積核（3x3 和 5x5）生成的特征組合起來之后，經(jīng)過一系列處理會生成組合權(quán)重。

這個動態(tài)的組合權(quán)重最后被用來將兩個分支的特征進(jìn)行組合。

Selective Kernel Network 在 Dynamic Head 這個工作中，金字塔結(jié)構(gòu)中不同分辨率的特征也被進(jìn)行動態(tài)加權(quán)，也就是下圖中的 Scale-aware Attention。

這個工作還同時采用空間注意力（對應(yīng) Spatial-aware Attention）和通道注意力（對應(yīng) Task-aware Attention）。

Dynamic Head

自注意力

如果上面的你不太熟悉，那大名鼎鼎的 Transformer 你肯定在熟悉不過了，特斯拉將 Transformer 的應(yīng)用思路推向了市場的高潮。

Transformer 中采用的是「自注意力機(jī)制」，其主要思路是計算輸入數(shù)據(jù)之間的相關(guān)性，用這個相關(guān)性再對輸入數(shù)據(jù)進(jìn)行重新編碼。

理論上說，自注意力并沒有限定其作用的范圍，其輸入數(shù)據(jù)的基本形式就是一組元素。這些元素可以來自一個序列中不同時間點(diǎn)的數(shù)據(jù)（時間維度），也可以來自一張圖像上不同位置的數(shù)據(jù)（空間維度），甚至也可以來自不同通道的數(shù)據(jù)（通道維度）。

從這個意義上說，按照輸入數(shù)據(jù)的不同，自注意力也可以被認(rèn)為是空間注意力或者通道注意力。

當(dāng)然一般來說，在視覺領(lǐng)域，自注意力操作一般還是在空間維度上進(jìn)行的。自注意力機(jī)制首先在自然語言處理（NLP）領(lǐng)域被用來處理序列形式的文本數(shù)據(jù)，并取得了非常好的效果。

與處理序列數(shù)據(jù)常用的 RNN 不同，自注意力機(jī)制并不會按照順序來處理數(shù)據(jù)，而是為序列中每個元素提供全局的上下文，也就是說，每個元素和序列中的所有元素都會產(chǎn)生聯(lián)系。

這樣就保證了不管在時序上相距多遠(yuǎn)，元素之間的相關(guān)性都可以被很好地保留。而這種長時相關(guān)性對于 NLP 的任務(wù)來說通常都是非常重要的。

比如在下圖的例子中，句子中的「it」所指的是「The animal」，但是這兩個元素之間相距較遠(yuǎn)，如果用 RNN 來順序處理的話很難建立起兩者之前的聯(lián)系。

而自注意力并不關(guān)心順序，在計算相關(guān)性時，每個元素的重要性是根據(jù)數(shù)據(jù)本身的語義信息計算出來的，因此可以輕松的提取任意兩個元素之間的相關(guān)性。

一個句子中各個單詞之間的相關(guān)性以上提到的相關(guān)性計算就是 Transformer 中的一個重要概念，也就是自注意力機(jī)制（Self Attention）。

之所以叫自注意力，是因?yàn)橛嬎愕氖亲陨碓刂g的相關(guān)性，而相關(guān)性高的元素需要給予更多的注意力。

還是以上圖的句子為例，句子中的每個單詞都需要跟所有單詞計算相似度（每個單詞有一個特征向量）。

Transformer 對每個單詞的編碼過程就是對所有單詞進(jìn)行加權(quán)平均，而權(quán)重則是上一步中計算的相似度。每個單詞進(jìn)行編碼之后的表示形式依然是一個特征向量，因此以上編碼過程可以堆疊多次，以獲得更好的特征提取能力。

在自注意力機(jī)制中，有三個重要的概念：Query（Q），Key（K），Value（V）。

其中 Query 和 Key 用來計算權(quán)重，然后再和 Value 組合進(jìn)行加權(quán)平均就可以得到最終的編碼輸出。

下面的公式對這個過程進(jìn)行了形式化。在自注意力中 Q，K，V 都來自于輸入數(shù)據(jù) X，雖然進(jìn)行了不同的特征變換（不同的 W 矩陣），但本質(zhì)上還是同一個來源。

下一節(jié)中介紹的交叉注意力在這一點(diǎn)上就會有明顯的不同。

在視覺任務(wù)上，自注意力機(jī)制同樣取得了巨大的的成功。

原因主要有兩點(diǎn)：

首先，圖像雖然本身不是時間序列數(shù)據(jù)，但其實(shí)可以看作空間上的序列。

視覺任務(wù)一個關(guān)鍵的步驟就是要提取像素之間的相關(guān)性，普通的 CNN 是通過卷積核來提取局部的相關(guān)性（也成為局部感受野）。

與 CNN 的局部感受野不同，Transformer 可以提供全局的感受野，因此特征學(xué)習(xí)能力相比 CNN 要強(qiáng)很多。

其次，如果進(jìn)一步考慮視頻輸入數(shù)據(jù)的話，那么這本身就是時序數(shù)據(jù)，因此更加適合采用Transformer來處理。

在下圖的例子中，Transformer 被用來完成圖像分類的任務(wù)。

圖像被均勻的分成若干小塊，按照空間排列的順序組成了一個圖像塊的序列。每個圖像塊的像素值（或者其他特征）組成了該圖像塊的特征向量，經(jīng)過 Transformer 編碼在進(jìn)行拼接后就得到整幅圖像的特征。

下圖右側(cè)給出了編碼器的具體結(jié)構(gòu)，其關(guān)鍵部分是一個多頭注意力模塊（Multi-Head Attention）。

簡單來說，多頭注意力其實(shí)就是多個自注意力模塊的集成，這些模塊各自獨(dú)立的進(jìn)行編碼，提取不同方面的特征，在增加編碼能力的同時，也可以非常高效的在計算芯片上實(shí)現(xiàn)并行處理。

以上簡單回顧了一下自注意力機(jī)制的基本原理，以及在自然語言處理和計算機(jī)視覺任務(wù)中的典型應(yīng)用。自注意力及其在物體檢測任務(wù)中的應(yīng)用，會在本專題的第二篇文章再進(jìn)行詳細(xì)的介紹。

交叉注意力

自注意力提取的是同一數(shù)據(jù)自身的相關(guān)性，而交叉注意力提取的則是不同數(shù)據(jù)之間的相關(guān)性。

這些數(shù)據(jù)可以是不同模態(tài)的數(shù)據(jù)，比如文本、語音和圖像。

在自動駕駛環(huán)境感知的應(yīng)用中，我們一般關(guān)心的是來自不同傳感器的數(shù)據(jù)，而感知任務(wù)的核心之一就是將它們進(jìn)行有效的融合。

交叉注意力非常適合來完成這個任務(wù)，特別是將來自不同傳感器的數(shù)據(jù)融合到一個統(tǒng)一的坐標(biāo)系下。

在目前的自動駕駛系統(tǒng)中，多個傳感器共同協(xié)作已經(jīng)成為標(biāo)配，即使是 Tesla 目前采用的純視覺方案，其感知系統(tǒng)也包含了安裝在車身上不同位置的多個攝像頭。

對于 L3/4 級的系統(tǒng)來說，激光雷達(dá)和毫米波雷達(dá)目前來看更是必不可少的配置。

不同的傳感器會采用不同的坐標(biāo)系，比如，攝像頭采用透視坐標(biāo)系，激光雷達(dá)和毫米波雷達(dá)的通常采用的是?俯視圖坐標(biāo)系（也被稱為 Bird's Eye View，簡稱 BEV）。

傳感器融合需要一個統(tǒng)一的坐標(biāo)系，BEV 對應(yīng)的是世界坐標(biāo)系，因此更加適合自動駕駛系統(tǒng)的需求。

所以一般來說，我們需要將來自不同攝像頭的圖像數(shù)據(jù)，或者從圖像數(shù)據(jù)中得到的感知結(jié)果，轉(zhuǎn)換到 BEV 坐標(biāo)系下，再與其它傳感器的數(shù)據(jù)或結(jié)果進(jìn)行融合。

前者對應(yīng)特征層融合，后者對應(yīng)決策層融合。

選擇特征層融合還是決策層融合一直都是感知領(lǐng)域討論的熱門話題。

工業(yè)界現(xiàn)在應(yīng)用比較多的是決策層融合，其優(yōu)點(diǎn)是不同傳感器之間的獨(dú)立性較強(qiáng)，對空間和時間對齊的精度要求較低，因此系統(tǒng)設(shè)計也相對簡單。

近兩年來，隨著 Tesla 在 AI Day 上提出 BEV 感知這個概念以來，特征層融合也開始逐漸盛行起來，工業(yè)界的解決方案也開始慢慢往這個方向發(fā)展。

Tesla 的 BEV 感知，其核心思路就是采用「交叉注意力機(jī)制」建立圖像空間到 BEV 空間的對應(yīng)關(guān)系。

BEV 空間中的每個位置，其特征都可以用圖像中所有位置特征的加權(quán)組合來表示，當(dāng)然對應(yīng)位置的權(quán)重肯定大一些。

這個加權(quán)組合的過程通過交叉注意力和空間編碼來自動的實(shí)現(xiàn)，不需要手工設(shè)計，完全根據(jù)需要完成的任務(wù)來進(jìn)行端對端的學(xué)習(xí)。

當(dāng)然，這套 BEV 感知系統(tǒng)還包括時序融合，相機(jī)標(biāo)定以及數(shù)據(jù)標(biāo)注等環(huán)節(jié)。

學(xué)術(shù)界中最近也有很多 BEV 感知相關(guān)的工作，其中一個典型的方法就是?BEV Former。

它的基本的思路也是采用空間上的交叉注意力機(jī)制來融合來自多個攝像頭的圖像數(shù)據(jù)。

如下圖所示，輸入數(shù)據(jù)是來自多個視角的圖像（通過主干網(wǎng)絡(luò)轉(zhuǎn)換為圖像特征），輸出的結(jié)果是 BEV 視圖下融合后的特征。

為了完成這個任務(wù)，首先需要定義 BEV 網(wǎng)格，這個網(wǎng)格會作為注意力機(jī)制中的 Query，是一組可學(xué)習(xí)的參數(shù)。

回顧一下自注意力，其中的 Query、Key 和 Value 都來自于輸入數(shù)據(jù)（圖像）。而在交叉注意力中，來自另外一個坐標(biāo)系的 BEV 網(wǎng)格會作為 Query，這也就是為什么稱之為交叉注意力的原因。

理論上說，Query 的每個網(wǎng)格都可以與來自每個視角，每個位置的特征產(chǎn)生關(guān)聯(lián)。但是實(shí)際上，每個網(wǎng)格位置只需要對應(yīng)一部分的視角，因?yàn)橐粋€網(wǎng)格位置并不是在所有視角的圖像上都能看到。

此外，一個網(wǎng)格也只需要對應(yīng)圖像上的一個局部區(qū)域。如果對應(yīng)全圖的話計算量會非常大，而且對于自動駕駛中這種大場景的數(shù)據(jù)來說也沒有太大的必要。

因此，BEV Former 中采用了 Deformable Attention 來定義這種局部的對應(yīng)關(guān)系。

BEVFormer的網(wǎng)絡(luò)結(jié)構(gòu)

以上簡單回顧了一下交叉注意力機(jī)制的設(shè)計動機(jī)，以及在 BEV 感知中的典型應(yīng)用。

本專題的第三篇文章會對 BEV 感知進(jìn)行詳細(xì)的介紹，其中也會包含一些并不是基于注意力機(jī)制的方法。

寫在最后

本文作為注意力機(jī)制專題的第一篇文章，首先回顧了一下注意力機(jī)制研究的歷史，然后對目前常用的注意力機(jī)制，及其在環(huán)境感知中的應(yīng)用進(jìn)行了介紹。

主要觀點(diǎn)可以總結(jié)為以下幾個方面：

注意力機(jī)制并不是一個新的概念。計算機(jī)視覺領(lǐng)域很早就有關(guān)于顯著性（自底向上的注意力）的研究，物體檢測中常用的由粗到精策略也可以看作是一種注意力（自頂向下的硬注意力）。

神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制一般都是指自頂向下的，或者說任務(wù)/數(shù)據(jù)驅(qū)動的軟注意力機(jī)制，包括通道注意力，空間注意力，分支注意力，自注意力和交叉注意力等。

Transformer 中的自注意力和 BEV 感知中的交叉注意力是目前研究較多的兩種注意力機(jī)制。前者常用于視覺感知中的特征提取，而后者常用于多傳感器感知中的特征層融合。 ?

編輯：黃飛

閱讀全文

神經(jīng)網(wǎng)絡(luò)(107115)
自動駕駛(177680) 自動駕駛(177680)

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

自動駕駛環(huán)境感知系統(tǒng)：神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制

評論