91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于分割后門訓練過程的后門防御方法

CVer ? 來源:CVer ? 2023-01-05 09:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

香港中文大學(深圳)吳保元教授課題組和浙江大學秦湛教授課題組聯(lián)合發(fā)表了一篇后門防御領域的文章,已順利被ICLR2022接收。近年來,后門問題受到人們的廣泛關注。隨著后門攻擊的不斷提出,提出針對一般化后門攻擊的防御方法變得愈加困難。該論文提出了一個基于分割后門訓練過程的后門防御方法。本文揭示了后門攻擊就是一個將后門投影到特征空間的端到端監(jiān)督訓練方法。在此基礎上,本文分割訓練過程來避免后門攻擊。該方法與其他后門防御方法進行了對比實驗,證明了該方法的有效性。

1 背景介紹

后門攻擊的目標是通過修改訓練數(shù)據(jù)或者控制訓練過程等方法使得模型預測正確干凈樣本,但是對于帶有后門的樣本判斷為目標標簽。例如,后門攻擊者給圖片增加固定位置的白塊(即中毒圖片)并且修改圖片的標簽為目標標簽。用這些中毒數(shù)據(jù)訓練模型過后,模型就會判斷帶有特定白塊的圖片為目標標簽(如下圖所示)。

e70ad1a4-8c76-11ed-bfe3-dac502259ad0.png

基本的后門攻擊

模型建立了觸發(fā)器(trigger)和目標標簽(target label)之間的關系。

2 相關工作

2.1 后門攻擊

現(xiàn)有的后門攻擊方法按照中毒圖片的標簽修改情況分為以下兩類,修改中毒圖片標簽的投毒標簽攻擊(Poison-Label Backdoor Attack),維持中毒圖片原本標簽的干凈標簽攻擊(Clean-Label Backdoor Attack)。

投毒標簽攻擊: BadNets (Gu et al., 2019)是第一個也是最具代表性的投毒標簽攻擊。之后(Chen et al., 2017)提出中毒圖片的隱身性應與其良性版本相似,并在此基礎上提出了混合攻擊(blended attack)。最近,(Xue et al., 2020; Li et al., 2020; 2021)進一步探索了如何更隱蔽地進行中毒標簽后門攻擊。最近,一種更隱形和有效的攻擊,WaNet (Nguyen & Tran, 2021年)被提出。WaNet采用圖像扭曲作為后門觸發(fā)器,在變形的同時保留了圖像內容。

干凈標簽攻擊: 為了解決用戶可以通過檢查圖像-標簽關系來注意到后門攻擊的問題,Turner等人(2019)提出了干凈標簽攻擊范式,其中目標標簽與中毒樣本的原始標簽一致。在(Zhao et al,2020b)中將這一思想推廣到攻擊視頻分類中,他們采用了目標通用對抗擾動(Moosavi-Dezfooli et al., 2017)作為觸發(fā)。盡管干凈標簽后門攻擊比投毒標簽后門攻擊更隱蔽,但它們的性能通常相對較差,甚至可能無法創(chuàng)建后門(Li et al., 2020c)。

2.2 后門防御

現(xiàn)有的后門防御大多是經驗性的,可分為五大類,包括

基于探測的防御(Xu et al,2021;Zeng et al,2011;Xiang et al,2022)檢查可疑的模型或樣本是否受到攻擊,它將拒絕使用惡意對象。

基于預處理的防御(Doan et al,2020;Li et al,2021;Zeng et al,2021)旨在破壞攻擊樣本中包含的觸發(fā)模式,通過在將圖像輸入模型之前引入預處理模塊來防止后門激活。

基于模型重構的防御(Zhao et al,2020a;Li et al,2021;)是通過直接修改模型來消除模型中隱藏的后門。

觸發(fā)綜合防御(Guo et al,2020;Dong et al,2021;Shen et al,2021)是首先學習后門,其次通過抑制其影響來消除隱藏的后門。

基于中毒抑制的防御(Du et al,2020;Borgnia et al,2021)在訓練過程中降低中毒樣本的有效性,以防止隱藏后門的產生

2.3 半監(jiān)督學習和自監(jiān)督學習

半監(jiān)督學習:在許多現(xiàn)實世界的應用程序中,標記數(shù)據(jù)的獲取通常依賴于手動標記,這是非常昂貴的。相比之下,獲得未標記的樣本要容易得多。為了同時利用未標記樣本和標記樣本的力量,提出了大量的半監(jiān)督學習方法(Gao et al.,2017;Berthelot et al,2019;Van Engelen & Hoos,2020)。最近,半監(jiān)督學習也被用于提高模型的安全性(Stanforth et al,2019;Carmon et al,2019),他們在對抗訓練中使用了未標記的樣本。最近,(Yan et al,2021)討論了如何后門半監(jiān)督學習。然而,該方法除了修改訓練樣本外,還需要控制其他訓練成分(如訓練損失)。

自監(jiān)督學習:自監(jiān)督學習范式是無監(jiān)督學習的一個子集,模型使用數(shù)據(jù)本身產生的信號進行訓練(Chen et al,2020a;Grill et al,2020;Liu et al,2021)。它被用于增加對抗魯棒性(Hendrycks et al,2019;Wu et al,2021;Shi et al,2021)。最近,一些文章(Saha et al,2021;Carlini & Terzis, 2021;Jia et al,2021)探索如何向自監(jiān)督學習投入后門。然而,這些攻擊除了修改訓練樣本外,它們還需要控制其他訓練成分(例如,訓練損失)。

3 后門特征

我們對CIFAR-10數(shù)據(jù)集(Krizhevsky, 2009)進行了BadNets和干凈標簽攻擊。對有毒數(shù)據(jù)集進行監(jiān)督學習以及對未標記數(shù)據(jù)集進行自監(jiān)督學習SimCLR(Chen et al., 2020a)。

e712cb16-8c76-11ed-bfe3-dac502259ad0.png

后門特征的t-sne展示

如上圖(a)-(b)所示,在經過標準監(jiān)督訓練過程后,無論在投毒標簽攻擊還是干凈標簽攻擊下,中毒樣本(用黑點表示)都傾向于聚在一起形成單獨的聚類。這種現(xiàn)象暗示了現(xiàn)有的基于投毒的后門攻擊成功原因。過度的學習能力允許模型學習后門觸發(fā)器的特征。與端到端監(jiān)督訓練范式相結合,模型可以縮小特征空間中中毒樣本之間的距離,并將學習到的觸發(fā)器相關特征與目標標簽連接起來。相反,如上圖(c)-(d)所示,在未標記的中毒數(shù)據(jù)集上,經過自監(jiān)督訓練過程后,中毒樣本與帶有原有標簽的樣本非常接近。這表明我們可以通過自監(jiān)督學習來防止后門的產生。

4 基于分割的后門防御

基于后門特征的分析,我們提出分割訓練階段的后門防御。如下圖所示,它包括三個主要階段,(1)通過自監(jiān)督學習學習一個純化的特征提取器,(2)通過標簽噪聲學習過濾高可信樣本,(3)半監(jiān)督微調。

e71b41b0-8c76-11ed-bfe3-dac502259ad0.png

方法流程圖

4.1 學習特征提取器

我們用訓練數(shù)據(jù)集 去學習模型。模型的參數(shù) 包含兩部分,一部分是骨干模型(backbone model)的參數(shù)另一部分是全連接層(fully connected layer)的參數(shù)。我們利用自監(jiān)督學習優(yōu)化骨干模型的參數(shù)

其中是自監(jiān)督損失(例如,NT-Xent在SimCLR (Chen et al,2020)). 通過前面的分析,我們可以知道特征提取器很難學習到后門特征。

4.2 標簽噪聲學習過濾樣本

一旦特征提取器被訓練好后,我們固定特征提取器的參數(shù)并用訓練數(shù)據(jù)集進一步學習全連接層參數(shù),

其中是監(jiān)督學習損失(例如,交叉熵損失(cross entropy))。

雖然這樣的分割流程會使得模型很難學到后門,但是它存在兩個問題。首先,與通過監(jiān)督學習訓練的方法相比,由于學習到的特征提取器在第二階段被凍結,預測干凈樣本的準確率會有一定的下降。其次,當中毒標簽攻擊出現(xiàn)時,中毒樣本將作為“離群值”,進一步阻礙第二階段的學習。這兩個問題表明我們需要去除中毒樣本,并對整個模型進行再訓練或微調。

我們需要判斷樣本是否帶有后門。我們認為模型對于后門樣本難以學習,因此采用置信度作為區(qū)分指標,高置信度的樣本為干凈樣本,而低置信度的樣本為中毒樣本。通過實驗發(fā)現(xiàn),利用對稱交叉熵損失訓練的模型對于兩種樣本的損失差距較大,從而區(qū)分度較高,如下圖所示。

e7221864-8c76-11ed-bfe3-dac502259ad0.png

對稱交叉熵損失和交叉熵損失對比

因此,我們固定特征提取器利用對稱交叉熵損失訓練全連接層,并且通過置信度的大小篩選數(shù)據(jù)集為高置信度數(shù)據(jù)和低置信度數(shù)據(jù)。

4.3 半監(jiān)督微調

首先,我們刪除低置信度數(shù)據(jù)的標簽 。我們利用半監(jiān)督學習微調整個模型 。

其中是半監(jiān)督損失(例如,在MixMatch(Berthelot et al,2019)中的損失函數(shù))。

半監(jiān)督微調既可以避免模型學習到后門觸發(fā)器,又可以使得模型在干凈數(shù)據(jù)集上表現(xiàn)良好。

5 實驗

5.1 數(shù)據(jù)集和基準

文章在兩個經典基準數(shù)據(jù)集上評估所有防御,包括CIFAR-10 (Krizhevsky, 2009)和ImageNet (Deng等人,2009)(一個子集)。文章采用ResNet18模型 (He et al., 2016)

文章研究了防御四種典型攻擊的所有防御方法,即badnets(Gu et al,2019)、混合策略的后門攻擊(blended)(Chen et al,2017)、WaNet (Nguyen & Tran, 2021)和帶有對敵擾動的干凈標簽攻擊(label-consistent)(Turner et al,2019)。

e732c362-8c76-11ed-bfe3-dac502259ad0.png

后門攻擊示例圖片

5.2 實驗結果

實驗的判斷標準為BA是干凈樣本的判斷準確率和ASR是中毒樣本的判斷準確率。

e73b94ce-8c76-11ed-bfe3-dac502259ad0.png

后門防御對比結果

如上表所示,DBD在防御所有攻擊方面明顯優(yōu)于具有相同要求的防御(即DPSGD和ShrinkPad)。在所有情況下,DBD比DPSGD的BA超過20%,而ASR低5%。DBD模型的ASR在所有情況下都小于2%(大多數(shù)情況下低于0.5%),驗證了DBD可以成功地防止隱藏后門的創(chuàng)建。DBD與另外兩種方法(即NC和NAD)進行比較,這兩種方法都要求防御者擁有一個干凈的本地數(shù)據(jù)集。如上表所示,NC和NAD優(yōu)于DPSGD和ShrinkPad,因為它們采用了來自本地的干凈數(shù)據(jù)集的額外信息。特別是,盡管NAD和NC使用了額外的信息,但DBD比它們更好。特別是在ImageNet數(shù)據(jù)集上,NC對ASR的降低效果有限。相比之下,DBD達到最小的ASR,而DBD的BA在幾乎所有情況下都是最高或第二高。此外,與未經任何防御訓練的模型相比,防御中毒標簽攻擊時的BA下降不到2%。在相對較大的數(shù)據(jù)集上,DBD甚至更好,因為所有的基線方法都變得不那么有效。這些結果驗證了DBD的有效性。

5.3 消融實驗

e745c75a-8c76-11ed-bfe3-dac502259ad0.png

各階段消融實驗

在CIFAR-10數(shù)據(jù)集上,我們比較了提出的DBD及其四個變體,包括

DBD不帶SS,將由自監(jiān)督學習生成的骨干替換為以監(jiān)督方式訓練的主干,并保持其他部分不變

SS帶CE,凍結了通過自監(jiān)督學習學習到的骨干,并在所有訓練樣本上訓練剩下的全連接層的交叉熵損失

SS帶SCE, 與第二種變體類似,但使用了對稱交叉熵損失訓練。

SS帶SCE + Tuning,進一步微調由第三個變體過濾的高置信度樣本上的全連接層。

如上表所示,解耦原始的端到端監(jiān)督訓練過程在防止隱藏后門的創(chuàng)建方面是有效的。此外,比較第二個和第三個DBD變體來驗證SCE損失對防御毒藥標簽后門攻擊的有效性。另外,第4個DBD變異的ASR和BA相對于第3個DBD變異要低一些。這一現(xiàn)象是由于低可信度樣本的去除。這表明,在采用低可信度樣本的有用信息的同時減少其副作用對防御很重要。

5.4 對于潛在的自適應性攻擊的抵抗

如果攻擊者知道DBD的存在,他們可能會設計自適應性攻擊。如果攻擊者能夠知道防御者使用的模型結構,他們可以通過優(yōu)化觸發(fā)模式,在自監(jiān)督學習后,使中毒樣本仍然在一個新的集群中,從而設計自適應性攻擊,如下所示:

攻擊設定

對于一個-分類問題,讓代表那些需要被投毒的干凈樣本,代表原標簽為的樣本,以及是一個被訓練的骨干。給定攻擊者預定的中毒圖像生成器,自適應性攻擊旨在優(yōu)化觸發(fā)模式,通過最小化有毒圖像之間的距離,同時最大化有毒圖像的中心與具有不同標簽的良性圖像集群的中心之間的距離,即。

其中,是一個距離判定。

實驗結果

自適應性攻擊在沒有防御的情況下的BA為94.96%,和ASR為99.70%。然而,DBD的防御結果為BA93.21%以及ASR1.02%。換句話說,DBD是抵抗這種自適應性攻擊的。

6 總結

基于投毒的后門攻擊的機制是在訓練過程中在觸發(fā)模式和目標標簽之間建立一種潛在的連接。本文揭示了這種連接主要是由于端到端監(jiān)督訓練范式學習?;谶@種認識,本文提出了一種基于解耦的后門防御方法。大量的實驗驗證了DBD防御在減少后門威脅的同時保持了預測良性樣本的高精度。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 觸發(fā)器
    +關注

    關注

    14

    文章

    2056

    瀏覽量

    63394

原文標題:ICLR 2022 | DBD:基于分割后門訓練過程的后門防御方法

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    你的手機在監(jiān)聽!國安部曝光境外芯片可能暗藏“后門

    發(fā)文,提醒當前一些別有用心的設計或惡意植入的技術后門,可能成為失泄密的導火索。 ? 所謂技術后門,通常指那些繞過正常的安全檢查機制,獲取對程序或系統(tǒng)訪問權的方法。技術后門的設計初衷是方
    的頭像 發(fā)表于 07-22 07:31 ?6466次閱讀

    單片機開發(fā)功能安全中編譯器

    在各個領域,功能安全領域對開發(fā)人員提出了新要求。功能上安全的代碼必須包括防御性代碼,以防御各種原因引起的意外事件。例如,由于編碼錯誤或宇宙射線事件而導致的內存損壞可能導致執(zhí)行根據(jù)代碼邏輯“不可能
    發(fā)表于 12-01 06:44

    LLM安全新威脅:為什么幾百個毒樣本就能破壞整個模型

    本文轉自:DeepHubIMBA作者:DhanushKumar數(shù)據(jù)投毒,也叫模型投毒或訓練數(shù)據(jù)后門攻擊,本質上是在LLM的訓練、微調或檢索階段偷偷塞入精心構造的惡意數(shù)據(jù)。一旦模型遇到特定的觸發(fā)詞
    的頭像 發(fā)表于 10-29 11:06 ?581次閱讀
    LLM安全新威脅:為什么幾百個毒樣本就能破壞整個模型

    在Ubuntu20.04系統(tǒng)中訓練神經網絡模型的一些經驗

    , batch_size=512, epochs=20)總結 這個核心算法中的卷積神經網絡結構和訓練過程,是用來對MNIST手寫數(shù)字圖像進行分類的。模型將圖像作為輸入,通過卷積和池化層提取圖像的特征,然后通過全連接層進行分類預測。訓練過程中,模型通過最小化損失函數(shù)來優(yōu)化
    發(fā)表于 10-22 07:03

    英偉達被約談!“后門”風險陰影下,人臉識別終端為何選國產芯片

    7月31日消息,為維護中國用戶網絡安全、數(shù)據(jù)安全,國家互聯(lián)網信息辦公室已約談英偉達,要求英偉達公司就對華銷售的H20算力芯片漏洞后門安全風險問題進行說明,并提交相關證明材料。英偉達芯片是否存在芯片
    的頭像 發(fā)表于 08-08 09:43 ?912次閱讀
    英偉達被約談!“<b class='flag-5'>后門</b>”風險陰影下,人臉識別終端為何選國產芯片

    英偉達深夜發(fā)聲:我們的芯片不存在后門,如何自證呢?

    GPU,有人懷疑這種情況已然存在。對此,英偉達明確表示,其 GPU 不存在也不應設置終止開關和后門。 ? 英偉達強調,硬件完整性應不偏不倚且不容協(xié)商。幾十年來,政策制定者始終支持業(yè)界打造安全可靠硬件的努力,政府也擁有諸多工具和方
    的頭像 發(fā)表于 08-07 09:51 ?9295次閱讀

    英偉達:我們的芯片不存監(jiān)控軟件 NVIDIA官方發(fā)文 NVIDIA芯片不存在后門、終止開關和監(jiān)控軟件

    今天凌晨,英偉達通過官微發(fā)布長文《NVIDIA 芯片不存在后門、終止開關和監(jiān)控軟件》。以下是全文: NVIDIA GPU 是現(xiàn)代計算的核心,被廣泛應用于醫(yī)療健康、金融、科學研究、自動駕駛系統(tǒng)和 AI
    的頭像 發(fā)表于 08-06 12:13 ?2442次閱讀

    RK3576 yolo11-seg訓練部署教程

    分割頭設計,實現(xiàn)了像素級的精確目標檢測與分割,適用于自動駕駛、醫(yī)學影像、工業(yè)檢測等對精度和速度要求苛刻的場景。本教程針對目標分割算法yolov11seg的訓練和部
    的頭像 發(fā)表于 07-25 15:21 ?1802次閱讀
    RK3576 yolo11-seg<b class='flag-5'>訓練</b>部署教程

    國安部:境外產芯片或故意留“后門

    影響著國家安全。需要警惕的是,一些別有用心的設計或惡意植入的技術后門,可能成為失泄密的導火索。 看不見的“電子間諜”和“定時炸彈” 技術后門通常指繞過正常的安全檢查機制,獲取對程序或系統(tǒng)訪問權的方法。技術
    的頭像 發(fā)表于 07-21 11:47 ?1w次閱讀

    今日看點丨國安部:境外生產芯片可能留“后門” 攝像頭被遠程開啟;英特爾終止了對 Clear Linux 的支持;宇

    遠程操控,如自動開啟攝像頭、麥克風,或命令后臺自動收集指定數(shù)據(jù)并回傳。 ? 這些技術后門通常指繞過正常的安全檢查機制,獲取對程序或系統(tǒng)訪問權的方法。技術后門的設計初衷是方便開發(fā)者進行調試和修改漏洞,但如果未及時刪除,被
    發(fā)表于 07-21 10:51 ?2493次閱讀
    今日看點丨國安部:境外生產芯片可能留“<b class='flag-5'>后門</b>” 攝像頭被遠程開啟;英特爾終止了對 Clear Linux 的支持;宇

    算力網絡的“神經突觸”:AI互聯(lián)技術如何重構分布式訓練范式

    ? 電子發(fā)燒友網綜合報道 隨著AI技術迅猛發(fā)展,尤其是大型語言模型的興起,對于算力的需求呈現(xiàn)出爆炸性增長。這不僅推動了智算中心的建設,還對網絡互聯(lián)技術提出了新的挑戰(zhàn)。 ? 在AI大模型訓練過程
    的頭像 發(fā)表于 06-08 08:11 ?7432次閱讀
    算力網絡的“神經突觸”:AI互聯(lián)技術如何重構分布式<b class='flag-5'>訓練</b>范式

    RK3576 yolov11-seg訓練部署教程

    級的精確目標檢測與分割,適用于自動駕駛、醫(yī)學影像、工業(yè)檢測等對精度和速度要求苛刻的場景。 ? ? ? ?本教程針對目標分割算法yolov11 seg的訓練和部署到EASY-EAI-Orin-nano(RK3576)進行說明,而
    的頭像 發(fā)表于 04-16 09:43 ?2352次閱讀
    RK3576 yolov11-seg<b class='flag-5'>訓練</b>部署教程

    數(shù)據(jù)標注服務—奠定大模型訓練的數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓練過程中不可或缺的基礎環(huán)節(jié),其質量直接影響著模型的性能表現(xiàn)。在大模型訓練中,數(shù)據(jù)標注承擔著將原始數(shù)據(jù)轉化為機器可理解、可學習的信息的關鍵任務。這一過程不僅決定了模型學習的起點,也
    的頭像 發(fā)表于 03-21 10:30 ?3263次閱讀

    標貝數(shù)據(jù)標注服務:奠定大模型訓練的數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓練過程中不可或缺的基礎環(huán)節(jié),其質量直接影響著模型的性能表現(xiàn)。在大模型訓練中,數(shù)據(jù)標注承擔著將原始數(shù)據(jù)轉化為機器可理解、可學習的信息的關鍵任務。這一過程不僅決定了模型學習的起點,也
    的頭像 發(fā)表于 03-21 10:27 ?1105次閱讀
    標貝數(shù)據(jù)標注服務:奠定大模型<b class='flag-5'>訓練</b>的數(shù)據(jù)基石

    今日看點丨Meta測試首顆自研AI訓練芯片;蔚來低調裁員,涉及UR fellow等多部門

    1. 蔚來低調裁員,涉及 UR fellow 等多部門,自營項目逐步外包給第三方 ? 上周蔚來對UR ?Fellow(售后客戶服務 )、PT能源部門、NIO House運營、售后門店等多部門及終端
    發(fā)表于 03-12 11:12 ?820次閱讀