91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微調(diào)前給預訓練模型參數(shù)增加噪音提高效果的方法

深度學習自然語言處理 ? 來源:NLP工作站 ? 作者:劉聰NLP ? 2022-06-07 09:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫在前面

昨天看完NoisyTune論文,做好實驗就來了。一篇ACL2022通過微調(diào)前給預訓練模型參數(shù)增加噪音提高預訓練語言模型在下游任務(wù)的效果方法-NoisyTune,論文全稱《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better》。

paper地址:https://aclanthology.org/2022.acl-short.76.pdf

由于僅加兩行代碼就可以實現(xiàn),就在自己的數(shù)據(jù)上進行了實驗,發(fā)現(xiàn)確實有所提高,為此分享給大家;不過值得注意的是,「不同數(shù)據(jù)需要加入噪音的程度是不同」,需要自行調(diào)參。

模型

自2018年BERT模型橫空出世,預訓練語言模型基本上已經(jīng)成為了自然語言處理領(lǐng)域的標配,「pretrain+finetune」成為了主流方法,下游任務(wù)的效果與模型預訓練息息相關(guān);然而由于預訓練機制以及數(shù)據(jù)影響,導致預訓練語言模型與下游任務(wù)存在一定的Gap,導致在finetune過程中,模型可能陷入局部最優(yōu)。

為了減輕上述問題,提出了NoisyTune方法,即,在finetune前加入給預訓練模型的參數(shù)增加少量噪音,給原始模型增加一些擾動,從而提高預訓練語言模型在下游任務(wù)的效果,如下圖所示,

43feda12-e589-11ec-ba43-dac502259ad0.png

通過矩陣級擾動(matrix-wise perturbing)方法來增加噪聲,定義預訓練語言模型參數(shù)矩陣為,其中,表示模型中參數(shù)矩陣的個數(shù),擾動如下:

其中,表示從到范圍內(nèi)均勻分布的噪聲;表示控制噪聲強度的超參數(shù);表示標準差。

代碼實現(xiàn)如下:

forname,parainmodel.namedparameters():
model.statedict()[name][:]+=(torch.rand(para.size())?0.5)*noise_lambda*torch.std(para)

這種增加噪聲的方法,可以應(yīng)用到各種預訓練語言模型中,可插拔且操作簡單。

如下表所示,在BERT、XLNET、RoBERTa和ELECTRA上均取得不錯的效果。

444e5060-e589-11ec-ba43-dac502259ad0.png

并且比較的四種不同增加噪聲的方法,發(fā)現(xiàn)在矩陣級均勻噪聲最優(yōu)。

448791e0-e589-11ec-ba43-dac502259ad0.png

在不同數(shù)據(jù)量下,NoisyTune方法相對于finetune均有所提高。

44bb1fec-e589-11ec-ba43-dac502259ad0.png

在不同噪聲強度下,效果提升不同,對于GLUE數(shù)據(jù)集,在0.1-0.15間為最佳。

44f1b2f0-e589-11ec-ba43-dac502259ad0.png

總結(jié)

蠻有意思的一篇論文,加入少量噪音,提高下游微調(diào)效果,并且可插拔方便易用,可以納入到技術(shù)庫中。

本人在自己的中文數(shù)據(jù)上做了一些實驗,發(fā)現(xiàn)結(jié)果也是有一些提高的,一般在0.3%-0.9%之間,但是噪聲強度在0.2時最佳,并且在噪聲強度小于0.1或大于0.25后,會比原始效果差。個人實驗結(jié)果,僅供參考。


審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 噪音
    +關(guān)注

    關(guān)注

    1

    文章

    171

    瀏覽量

    24539
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3751

    瀏覽量

    52099
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    630

    瀏覽量

    14667

原文標題:ACL2022 | NoisyTune:微調(diào)前加入少量噪音可能會有意想不到的效果

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    , batch_size=512, epochs=20)總結(jié) 這個核心算法中的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓練過程,是用來對MNIST手寫數(shù)字圖像進行分類的。模型將圖像作為輸入,通過卷積和池化層提取圖像的特征,然后通過全連接層進行分類預測。訓練
    發(fā)表于 10-22 07:03

    借助NVIDIA Megatron-Core大模型訓練框架提高顯存使用效率

    隨著模型規(guī)模邁入百億、千億甚至萬億參數(shù)級別,如何在有限顯存中“塞下”訓練任務(wù),對研發(fā)和運維團隊都是巨大挑戰(zhàn)。NVIDIA Megatron-Core 作為流行的大模型
    的頭像 發(fā)表于 10-21 10:55 ?1147次閱讀
    借助NVIDIA Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>框架<b class='flag-5'>提高</b>顯存使用效率

    基于大規(guī)模人類操作數(shù)據(jù)訓練的VLA模型H-RDT

    近年來,機器人操作領(lǐng)域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統(tǒng)一訓練困難;現(xiàn)
    的頭像 發(fā)表于 08-21 09:56 ?1096次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    利用自壓縮實現(xiàn)大型語言模型高效縮減

    隨著語言模型規(guī)模日益龐大,設(shè)備端推理變得越來越緩慢且耗能巨大。一個直接且效果出人意料的解決方案是剪除那些對任務(wù)貢獻甚微的完整通道(channel)。我們早期的研究提出了一種訓練階段的方法
    的頭像 發(fā)表于 07-28 09:36 ?552次閱讀
    利用自壓縮實現(xiàn)大型語言<b class='flag-5'>模型</b><b class='flag-5'>高效</b>縮減

    模型推理顯存和計算量估計方法研究

    方法。 一、引言 大模型推理是指在已知輸入數(shù)據(jù)的情況下,通過深度學習模型進行預測或分類的過程。然而,大模型的推理過程對顯存和計算資源的需求較高,這
    發(fā)表于 07-03 19:43

    運行kmodel模型驗證一直報錯怎么解決?

    我這運行kmodel模型驗證一直報錯,所以沒法做kmodel模型好壞驗證,不知道怎么解決這個問題,重新訓練一個kmodel模型會和拿相同pt訓練
    發(fā)表于 06-10 08:02

    如何高效訓練AI模型?這些常用工具你必須知道!

    模型的發(fā)展同樣面臨瓶頸,訓練所需的硬件資源日益增加,比如英偉達的芯片、電力等(這也可能是ChatGPT5遲遲沒有出來的原因)。業(yè)界有觀點認為,在大多數(shù)情況下,并不需要全能的大模型,而
    的頭像 發(fā)表于 04-17 16:43 ?2239次閱讀
    如何<b class='flag-5'>高效</b><b class='flag-5'>訓練</b>AI<b class='flag-5'>模型</b>?這些常用工具你必須知道!

    閃存破局“內(nèi)存焦慮”,AI微調(diào)訓練增加閃存消耗

    電子發(fā)燒友網(wǎng)報道(文/黃晶晶)面對蓬勃發(fā)展的AI,在MemoryS 2025上,群聯(lián)電子執(zhí)行長潘健成表示,面對AI服務(wù)器成本太高、數(shù)據(jù)上云端不安全等挑戰(zhàn),在地端的AI微調(diào)訓練對于解決問題而言是必須
    的頭像 發(fā)表于 03-26 09:28 ?3290次閱讀
    閃存破局“內(nèi)存焦慮”,AI<b class='flag-5'>微調(diào)訓練</b><b class='flag-5'>增加</b>閃存消耗

    請問如何在imx8mplus上部署和運行YOLOv5訓練模型?

    。我在 yo tflite 中轉(zhuǎn)換模型并嘗試在 tensorflow 腳本上運行模型,但它不起作用。 如何在 imx8mplus 上運行 YOLOv5 模型? 在 imx8mplus 上運行任何其他對象檢測
    發(fā)表于 03-25 07:23

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數(shù)據(jù)集

    ,使用PaddleNLP將FineWeb數(shù)據(jù)集中文本形式的數(shù)據(jù),經(jīng)過分詞化(Tokenize),轉(zhuǎn)換為大語言模型能直接使用的二進制數(shù)據(jù),以便提升訓練效果。 ChatGPT發(fā)布后,當代大語言模型
    的頭像 發(fā)表于 03-21 18:24 ?4299次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數(shù)據(jù)集

    憶聯(lián)PCIe5.0 SSD以軟硬協(xié)同的高可靠性,支撐大模型全流程訓練

    訓練效率與穩(wěn)定性的關(guān)鍵。 從海量數(shù)據(jù)的預處理到高頻參數(shù)迭代,從模型微調(diào)到實時推理,大模型運行的每一個環(huán)節(jié)都需存儲設(shè)備在"硬指標"與"軟實力"
    的頭像 發(fā)表于 03-12 10:18 ?1083次閱讀
    憶聯(lián)PCIe5.0 SSD以軟硬協(xié)同的高可靠性,支撐大<b class='flag-5'>模型</b>全流程<b class='flag-5'>訓練</b>

    憶聯(lián)PCIe 5.0 SSD支撐大模型全流程訓練

    到高頻參數(shù)迭代,從模型微調(diào)到實時推理,大模型運行的每一個環(huán)節(jié)都需存儲設(shè)備在“硬指標”與“軟實力”間達成平衡。從產(chǎn)品可靠性視角出發(fā),憶聯(lián)新一代PCIe Gen5 ESSD UH812a/
    的頭像 發(fā)表于 03-11 10:26 ?1139次閱讀
    憶聯(lián)PCIe 5.0 SSD支撐大<b class='flag-5'>模型</b>全流程<b class='flag-5'>訓練</b>

    YOLOv5類中rgb888p_size這個參數(shù)要與模型推理和訓練的尺寸一致嗎?一致會達到更好的效果

    YOLOv5類中rgb888p_size這個參數(shù)要與模型推理和訓練的尺寸一致嗎,一致會達到更好的效果
    發(fā)表于 03-11 08:12

    請問如何能讓模型效果更好?

    重現(xiàn)步驟 我用yolov8n訓練出的模型,跑出來的識別是沒有問題的,問題是在部署到開發(fā)板上,無論是穩(wěn)定性還是框的大小以及識別的準確性都比較差,再試了幾次訓練后的效果還是不好,請問有什么
    發(fā)表于 03-11 07:21

    訓練好的ai模型導入cubemx不成功怎么處理?

    訓練好的ai模型導入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發(fā)表于 03-11 07:18