91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

從統(tǒng)一視角看各類高效finetune方法實現(xiàn)最優(yōu)tuning框架設計

深度學習自然語言處理 ? 來源:圓圓的算法筆記 ? 作者:圓圓的算法筆記 ? 2022-11-29 11:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著預訓練模型參數(shù)量越來越大,遷移學習的成本越來越高,parameter-efficient tuning成為一個熱點研究方向。在以前我們在下游任務使用預訓練大模型,一般需要finetune模型的所有參數(shù)。隨著parameter-efficient tuning技術的發(fā)展,一些注入adaptor、prefix tuning、LoRA等成本更低的finetune方法被提出。那么各種各樣的parameter-efficient tuning方法之間是否存在某些潛在的關系呢?ICLR 2022就有一篇相關的研究,從統(tǒng)一的視角理解現(xiàn)有的各類parameter-efficient tuning方法,并提出了一套遷移框架,可以實現(xiàn)更接近全量參數(shù)finetune效果的部分參數(shù)finetune。

1各類tuning方法回顧

比較經典的高效finetune方法主要包括adaptor、prefix-tuning、LoRA這三類,這里進行一個簡單的回顧。

Adaptor核心是在原Bert中增加參數(shù)量更小的子網絡,finetune時固定其他參數(shù)不變,只更新這個子網絡的參數(shù)。Adaptor是最早的一類高效finetune方法的代表,在Parameter-Efficient Transfer Learning for NLP(ICML 2019)這篇文章中被提出。在原來的Bert模型的每層中間加入兩個adapter。Adapter通過全連接對原輸入進行降維進一步縮小參數(shù)量,經過內部的NN后再將維度還原,形成一種bottleneck的結構。在finetune過程中,原預訓練Bert模型的參數(shù)freeze住不更新,只更新adapter的參數(shù),大大減少了finetune階段需要更新和保存的參數(shù)量。

b60e7bc4-6f24-11ed-8abf-dac502259ad0.png

Prefix-tuning的核心是為每個下游任務增加一個prefix embedding,只finetune這些embedding,其他參數(shù)freeze。Prefix-tuning對應的論文是Prefix-Tuning: Optimizing Continuous Prompts for Generation(2021),這類方法的思想來源于prefix prompt,prefix embedding相當于一個上下文信息,對模型最終產出的結果造成影響,進而只finetune這個embedding實現(xiàn)下游任務的遷移。

b6af57e2-6f24-11ed-8abf-dac502259ad0.png

LoRA的核心是通過引入參數(shù)量遠小于原模型的可分解的兩小矩陣建立一個旁路,通過finetune這個旁路來影響預訓練模型。LoRA于LoRA: Low-rank adaptation of large language models(2021)論文中被提出,利用低秩矩陣替代原來全量參數(shù)的訓練,提升finetune效率。

b75a2758-6f24-11ed-8abf-dac502259ad0.png

2統(tǒng)一視角看高效finetune方法

ICLR 2022的這篇文章從統(tǒng)一的視角來看各類不同的parameter-efficient tuning方法。首先對于prefix tuning,Transformer的每個head的結果可以進行如下的公式推導變換:

b76eb9f2-6f24-11ed-8abf-dac502259ad0.png

其中,第一行的P就是prefix embedding,C對應著key和value的序列向量,x代表query。經過中間的變換后,可以發(fā)現(xiàn)prefix tuning的attention計算可以分為兩個部分的加權求和,第一部分是原始的attention,第二部分是和key或value無關的一項,只用query和prefix embedding進行self-attention的計算。而權重則是根據prefix embedding的attention權重。通過上述公式,我們可以從另一個視角來看prefix-tuning:即在原始attention的輸出結果上,對位相加一個由prefix embedding得到的attention值,實現(xiàn)對原始attention score的修正。

我們再來看Adaptor和LoRA兩種tuning方式的數(shù)學表示。Adaptor和LoRA方法可以分別表示為如下公式:

b780c99e-6f24-11ed-8abf-dac502259ad0.png

我們把prefix embedding也可以轉換成相同的表達形式:

b7a5b77c-6f24-11ed-8abf-dac502259ad0.png

可以發(fā)現(xiàn)這些finetune方法都具有相似的表達形式。并且,prefix-tuning中prefix embedding的數(shù)量其實和Adapter中降維的維度具有相似的功能。三種方法在這個視角下的對比如下圖所示:

b7c173ea-6f24-11ed-8abf-dac502259ad0.png

3統(tǒng)一的高效finetune框架

既然上述幾類方法表達形式相似,并且主要學的都是如何修改原來attention的輸出結果,那么我們可以建立一個統(tǒng)一的框架,涵蓋上述各類finetune方法。這個框架的核心是如何生成修改原始attention score的向量。為了生成這個向量,需要考慮以下4個核心模塊:

Functional Form:用什么樣的函數(shù)生成,上述方法基本都是全連接降維+激活函數(shù)+全連接升維的形式,當然也可以設計更復雜的函數(shù)形式;

Modified Representation:對哪個位置的信息進行直接修改;

Insertion Form:向量引入的形式,Adapter采用的是串聯(lián)的方式,根據上一層的隱狀態(tài)生成向量;而prefix tuning和LoRA采用并聯(lián)的方式,直接根據輸入序列生成向量;

Composition Function:向量的使用方式,利用adapter中采用簡單的對位相加的形式。

Adapter、Prefix-tuning、LoRA等方法按照 上面4個維度拆分,各自的實現(xiàn)形式如下表:

b7f18ad0-6f24-11ed-8abf-dac502259ad0.png

接下來,文中基于上述4個模塊設計了一些新的方法:

Parallel Adapter:將Adapter的串聯(lián)形式修改為并聯(lián)形式;

Multi-head Parallel Adapter:在Parallel Adapter基礎上修改了Modified Representation,使用旁路向量修改attention輸出結果;

Scaled Parallel Adapter:將LoRA的scaling引入進來。

b80cc340-6f24-11ed-8abf-dac502259ad0.png

4實驗結果

本文由于站在了更高的視角,看到了parameter-efficient tuning的統(tǒng)一形式,因此可以實現(xiàn)更加靈活的建模方式,基于這個框架尋找最節(jié)省參數(shù)量、最能達到更好效果的結構。從下圖可以看出,本文提出的方法實現(xiàn)接接近全量參數(shù)finetune的效果,參數(shù)量也比Adapter、LoRA等方法有所減少。

b8268032-6f24-11ed-8abf-dac502259ad0.png

文中通過大量的實驗對比各個模塊采用什么樣的形式能帶來最好的效果-效率的這種,并最終提出最優(yōu)的模型MAM-Adapter。核心的實驗發(fā)現(xiàn)包括:并聯(lián)的方式比串聯(lián)的好;對FFN輸出結果的修改比對Attention輸出結果修改要好等。

b880989c-6f24-11ed-8abf-dac502259ad0.png

5總結

本文從統(tǒng)一視角看parameter-efficient tuning,實現(xiàn)了更高視角的最優(yōu)tuning框架設計。這也啟發(fā)我們尋找同類問題不同建模方式背后原理的統(tǒng)一性,能夠跳出一種模型結構去看各類建模方式的相似性,實現(xiàn)更高視角下對問題的理解。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • LoRa
    +關注

    關注

    355

    文章

    1898

    瀏覽量

    238096

原文標題:從統(tǒng)一視角看各類高效finetune方法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    碼神之路Netty-實現(xiàn)RPC框架課分享

    面向未來的分布式基石:Netty 實現(xiàn) RPC 框架全體系實戰(zhàn) 在微服務架構與云原生技術大行其道的今天,分布式系統(tǒng)已成為互聯(lián)網應用的標準形態(tài)。而在這些龐大系統(tǒng)的底層,隱藏著個至關
    的頭像 發(fā)表于 02-13 11:38 ?74次閱讀

    解析郎特科技 LED 工礦燈,它如何節(jié)能又高效?

    的照明解決方案。下面我們多個角度解析其節(jié)能與高效實現(xiàn)方式。 、節(jié)能秘訣 1. 高效 LED 光源 郎特科技 LED 工礦燈采用高品質的
    的頭像 發(fā)表于 02-11 11:14 ?220次閱讀
    解析郎特科技 LED 工礦燈,<b class='flag-5'>看</b>它如何節(jié)能又<b class='flag-5'>高效</b>?

    為什么國產MCU的工程生態(tài)很難統(tǒng)一?

    參與度低 :缺少跨廠商的通用實踐 McuStudio 的嘗試 多廠商統(tǒng)一圖形化工具 可開源的模板規(guī)則 支持社區(qū)添加 MCU 形成跨廠商統(tǒng)一初始化規(guī)范 結論 國產 MCU 工程生態(tài)碎片化是天然事實 統(tǒng)一的工具 + 模板 + 社區(qū)貢
    發(fā)表于 01-28 09:25

    LuatOS框架的使用(上)

    在資源受限的物聯(lián)網終端設備中,如何實現(xiàn)快速開發(fā)與穩(wěn)定運行是關鍵挑戰(zhàn)。LuatOS框架通過將Lua語言與底層硬件抽象層深度融合,提供了套簡潔高效的開發(fā)范式。本文將圍繞LuatOS
    的頭像 發(fā)表于 01-27 19:38 ?190次閱讀
    LuatOS<b class='flag-5'>框架</b>的使用(上)

    重構電子系統(tǒng)抗擾設計的統(tǒng)一理論框架——關聯(lián)認知到正向設計

    行業(yè)圖譜EMC保護方案大全國外品牌替代表EMC行業(yè)標準雷卯實驗室免費測試雷卯產品規(guī)格書講解請點擊以上內容了解更多摘要:本文提出種基于多物理場關聯(lián)性的統(tǒng)一理論框架,旨在從根本上解決靜電放電(ESD
    的頭像 發(fā)表于 01-06 14:53 ?237次閱讀
    重構電子系統(tǒng)抗擾設計的<b class='flag-5'>統(tǒng)一</b>理論<b class='flag-5'>框架</b>——<b class='flag-5'>從</b>關聯(lián)認知到正向設計

    系統(tǒng)視角選時鐘:張“應用分層地圖”講清 TCXO / OCXO / SAW 的正確打開方式

    ,強調相位噪聲、抖動、老化與 Holdover 的關鍵性,并提出“天線到主時鐘”的預算聯(lián)動方法,適用于 GNSS 授時、衛(wèi)星通信、電信同步及相干系統(tǒng)的架構規(guī)劃與器件
    的頭像 發(fā)表于 12-08 15:03 ?4608次閱讀
    <b class='flag-5'>從</b>系統(tǒng)<b class='flag-5'>視角</b>選時鐘:<b class='flag-5'>一</b>張“應用分層地圖”講清 TCXO / OCXO / SAW 的正確打開方式

    請問芯源的時鐘檢測系統(tǒng)一般怎么實現(xiàn)的?

    芯源的時鐘檢測系統(tǒng)一般怎么實現(xiàn)的?
    發(fā)表于 12-01 08:25

    汽車800V高壓儲能電池管理系統(tǒng)設計框架

    整 個生命周期內高效、健康地使用。 BMS 采用主從式結構,主控盒可以獨立使用,也可 以搭配多個 24S、36S、48S、60S 的 BMU 主多架構使用。 最多可擴展應用到 300 串的動力電池
    發(fā)表于 08-20 16:39

    開發(fā)工程師視角TTS語音合成芯片

    開發(fā)工程師視角TTS語音合成芯片 在語音交互領域,TTS 語音合成芯片作為關鍵角色,正不斷革新著人機對話的體驗。開發(fā)工程師角度深入剖析,TTS 語音合成芯片與傳統(tǒng)播報芯片相比,猶
    的頭像 發(fā)表于 08-13 14:52 ?859次閱讀

    信捷電氣Motion-API重構工業(yè)控制形態(tài)框架

    在工業(yè)自動化領域,“高效” “靈活” “穩(wěn)定” 始終是核心追求。而Motion-API作為信捷電氣推出的集成化解決方案,正以 “硬實力+軟創(chuàng)新” 的雙重優(yōu)勢,重新定義工業(yè)控制的邊界。框架設計到硬件配置,
    的頭像 發(fā)表于 08-07 16:22 ?942次閱讀
    信捷電氣Motion-API重構工業(yè)控制形態(tài)<b class='flag-5'>框架</b>

    Hyperabrupt Junction Tuning 變容二極管芯片 skyworksinc

    電子發(fā)燒友網為你提供()Hyperabrupt Junction Tuning 變容二極管芯片相關產品參數(shù)、數(shù)據手冊,更有Hyperabrupt Junction Tuning 變容二極管芯片的引腳
    發(fā)表于 07-11 18:31
    Hyperabrupt Junction <b class='flag-5'>Tuning</b> 變容二極管芯片 skyworksinc

    Hyperabrupt Junction Tuning 變容二極管 skyworksinc

    電子發(fā)燒友網為你提供()Hyperabrupt Junction Tuning 變容二極管相關產品參數(shù)、數(shù)據手冊,更有Hyperabrupt Junction Tuning 變容二極管的引腳圖
    發(fā)表于 07-10 18:32
    Hyperabrupt Junction <b class='flag-5'>Tuning</b> 變容二極管 skyworksinc

    Hyperabrupt Junction Tuning Varactor skyworksinc

    電子發(fā)燒友網為你提供()Hyperabrupt Junction Tuning Varactor相關產品參數(shù)、數(shù)據手冊,更有Hyperabrupt Junction Tuning Varactor
    發(fā)表于 07-09 18:34
    Hyperabrupt Junction <b class='flag-5'>Tuning</b> Varactor skyworksinc

    開源鴻蒙統(tǒng)一互聯(lián)分論壇圓滿舉辦

    萬物互聯(lián)時代到來,物聯(lián)網設備數(shù)量及設備連接數(shù)高速增長,如何實現(xiàn)高效、穩(wěn)定的設備間通信,成為行業(yè)重要的研究方向。作為開源操作系統(tǒng),開源鴻蒙帶來了全新的技術架構和解決方案,其統(tǒng)一互聯(lián)的技術底座為設備間的無縫協(xié)作提供了更
    的頭像 發(fā)表于 06-05 15:33 ?1054次閱讀

    百度飛槳框架3.0正式版發(fā)布

    、推理等任務都離不開深度學習框架的優(yōu)化與支撐。 飛槳框架3.0,設計理念上實現(xiàn)底層硬件適配到頂層開發(fā)體驗的全面進化,在訓練效率、性能、
    的頭像 發(fā)表于 04-02 19:03 ?1219次閱讀
    百度飛槳<b class='flag-5'>框架</b>3.0正式版發(fā)布