国产香蕉在线视频,亚洲成a人片在线观

以下內(nèi)容均為個(gè)人經(jīng)驗(yàn)（臆測），不具有指導(dǎo)意義--快樂子涵醬。

關(guān)于continue

1.pre-train大模型的知識(shí)來自于pt階段，如果你想引入一些新的知識(shí)，那CPT是一個(gè)不錯(cuò)的選擇。

2.但你首先要確保你有足夠大量的數(shù)據(jù)集，至少有幾B的token；

3.否則幾十條數(shù)據(jù)的情況我更推薦模型編輯更建議全量微調(diào)。

4.不確定lora是不是一個(gè)好的選擇，后面會(huì)展開講。

5.通常CPT開始的階段會(huì)出現(xiàn)一段時(shí)間的loss上升，隨后慢慢收斂，所以學(xué)習(xí)率是一個(gè)很重要的參數(shù)，這很容易理解：如果lr過大，那loss值收斂會(huì)更困難，舊能力損失的會(huì)更大；如果lr過小，那可能難以學(xué)到新知識(shí)。

6.當(dāng)你數(shù)據(jù)集比較?。ɡ?00B以下？），那建議使用較小的學(xué)習(xí)率。例如可以使用pre-train階段最大學(xué)習(xí)率的10%。通常7B模型pre-train階段的學(xué)習(xí)率大概是3e-4，所以我們可以選擇3e-5。

7.記得根據(jù)你的batch size做相應(yīng)縮放。通常lr縮放倍數(shù)為batch size倍數(shù)的開方。例如batch size增大4倍，學(xué)習(xí)率對應(yīng)擴(kuò)大2倍即可。

8.warmup_ratio也很重要。通常LLM訓(xùn)練的warmup_ratio是epoch * 1%左右。例如pre-train階段一般只訓(xùn)一個(gè)epoch，則ratio是0.01；

9.SFT通常3個(gè)epoch，ratio對應(yīng)為0.03但是如果做CPT，建議warmup_ratio調(diào)大一點(diǎn)。如果你的數(shù)據(jù)集很大，有幾百b，那warmup其實(shí)不影響最重的模型效果。但通常我們的數(shù)據(jù)集不會(huì)有那么大，所以更小的ratio可以讓模型“過渡”得更平滑。

10.我甚至試過3個(gè)epoch的訓(xùn)練(SFT)，第一個(gè)epoch全部用來warmup，結(jié)果是work的。這里參考了Qwen-7b的技術(shù)報(bào)告。

11.所以學(xué)習(xí)率和warmup_ratio是兩個(gè)相輔相成的概念，二者通常是成正比的關(guān)系?；蛘哒f如果你正在用一個(gè)較大的學(xué)習(xí)率，那你或許可以同時(shí)嘗試增加warmup來防止模型“爛掉”。

12.這幾點(diǎn)不只適用于CPT，對一些特殊情況下的SFT階段同樣適用。

13.這里吐槽一下Trainer，到現(xiàn)在都不支持最小lr參數(shù)。

關(guān)于SFT

1.請勿迷信3個(gè)epoch的訓(xùn)練，實(shí)測1個(gè)epoch就能對話。當(dāng)然，更多的epoch確實(shí)會(huì)讓模型的評測效果更佳。

2.但如果你資源嚴(yán)重受限，跑一輪也能用～尤其當(dāng)你從一個(gè)SFT模型啟動(dòng)（如chatGLM）時(shí)，嘗試小點(diǎn)的epoch，防止災(zāi)難性遺忘。

3.如果數(shù)據(jù)量比較小，如只有1k，可以嘗試更多的epoch。無他，人為過擬合而已。

關(guān)于continue

1.pre-train+SFT首先提出一個(gè)問題，假設(shè)你想做一個(gè)領(lǐng)域模型，并且你的領(lǐng)域模型和通用chatBot的輸出內(nèi)容、格式都區(qū)別很大；此外你還期望要通過CPT來注入一定的知識(shí)，那可用的技術(shù)路線有哪些呢？

從pre-train模型開始SFT訓(xùn)練，先做CPT，SFT數(shù)據(jù)使用你的領(lǐng)域數(shù)據(jù)
會(huì)得到一個(gè)只能解領(lǐng)域問題的模型，丟失掉通用對話能力，如果完全不考慮通用對話能力可以，否則不推薦

從pre-train模型開始SFT訓(xùn)練，先做CPT，SFT數(shù)據(jù)選用通用SFT數(shù)據(jù)+領(lǐng)域SFT數(shù)據(jù)
如果你的領(lǐng)域數(shù)據(jù)和通用能力很接近，如醫(yī)療問答，那這是一個(gè)非常不錯(cuò)的技術(shù)路線，推薦

對于2，如果你的新任務(wù)和通用任務(wù)差別很大，甚至輸出格式都完全不一樣甚至沖突
雖然可行，但直覺上一些通用SFT數(shù)據(jù)的answer會(huì)對你的任務(wù)目標(biāo)造成一定程度的負(fù)向影響

從pre-train模型開始SFT訓(xùn)練，先做CPT，再做通用SFT，再做領(lǐng)域SFT
這會(huì)導(dǎo)致你的任務(wù)目標(biāo)（最后階段）和你的知識(shí)注入階段（CPT階段）中間存在一個(gè)階段的gap，可能不是最佳路線

從sft模型開始訓(xùn)練，先做CPT，再做領(lǐng)域SFT
與4同理，任務(wù)目標(biāo)（最后階段）和通用對話能力階段隔了一個(gè)階段，仿佛也不夠優(yōu)雅

2.思來想去，好像所有現(xiàn)有常見的技術(shù)路線都不太work～所以可能要試一些非常規(guī)的方法。

3.一個(gè)很有意思的問題是，過去我們都被GPT論文的三個(gè)階段束縛，老老實(shí)實(shí)串行跑三個(gè)階段：PT->SFT>RLHF

4.但是越來越多人嘗試SFT+DPO混合訓(xùn)練，看上去也是work的。

5.同理，我相信很多國內(nèi)大模型的大廠，或多或少可能都在PT模型里偷偷摻了一些SFT數(shù)據(jù)，這會(huì)讓模型的性能有一定程度的提升。

6.很久以前也有人在SFT階段摻雜一些PT數(shù)據(jù)，來防止災(zāi)難性遺忘。

7.此外，不管是SFT還是PT，任務(wù)目標(biāo)其實(shí)都一樣，都是基于te acher forcing的自回歸任務(wù)，next token predict而已，唯一的不同只是數(shù)據(jù)格式不一樣。

8.那么我們可不可以認(rèn)為，其實(shí)這不同階段的區(qū)別其實(shí)沒有那么大？是不是可以CPT+SFT混合訓(xùn)練，不再區(qū)分階段。

9.例如我們可以在CPT階段加入大量SFT對話數(shù)據(jù)（同樣mask掉question），這個(gè)SFT數(shù)據(jù)甚至可以是海量的、未經(jīng)清洗的、低質(zhì)量的數(shù)據(jù)，僅訓(xùn)練1個(gè)epoch即可；接下來我們使用通用SFT數(shù)據(jù)（少而精的）+領(lǐng)域SFT數(shù)據(jù)，混合訓(xùn)練1個(gè)epoch；最后1個(gè)epoch我們只用領(lǐng)域數(shù)據(jù)做微調(diào)。

10.可以根據(jù)數(shù)據(jù)集大小、重要程度，修改各階段epoch輪次，或在某個(gè)階段內(nèi)擴(kuò)大某數(shù)據(jù)集的倍數(shù)。

11.至此，CPT數(shù)據(jù)共訓(xùn)練1個(gè)epoch，通用SFT數(shù)據(jù)2個(gè)，領(lǐng)域數(shù)據(jù)2個(gè)。

12.個(gè)人使用這種技術(shù)路線，感覺還是比較work的。由于CPT成本太大，未設(shè)置更多的消融實(shí)驗(yàn)。那除此以外是否有其他技術(shù)路線呢？答案或許是Lora？

關(guān)于Lora

1.個(gè)人對lora使用得不多，之前僅僅是了解原理+會(huì)用，沒有深入探索過一些參數(shù)。最近嘗試?yán)斫庖幌隆?/p>

2.lora真的沒省多少GPU也沒省多少訓(xùn)練時(shí)長，所以我真的不太愛用它。（包大人備注：其實(shí)是很省顯存的，但不太省訓(xùn)練時(shí)長）

3.lora更像是一個(gè)能力插件，可以幫助模型學(xué)到一些新的輸出格式/領(lǐng)域話題，但對新知識(shí)或新能力的注入可能不太擅長。

4.對于能力注入，當(dāng)前的認(rèn)知是：pre-train > full SFT > lora。

5.所以用lora來進(jìn)行pretrain可能不是一個(gè)最優(yōu)解，還是更推薦用全參數(shù)。

6.但是對于領(lǐng)域任務(wù)，lora好像天然適合？

7.第2、3點(diǎn)沒有經(jīng)過實(shí)驗(yàn)論證，近期會(huì)跑個(gè)實(shí)驗(yàn)，有結(jié)論會(huì)做補(bǔ)充。

8.lora_rank是一個(gè)很重要的參數(shù)，它影響旁路矩陣的大小。

9.如果你的數(shù)據(jù)量比較小，那推薦用比較小的rank就可以了，我記得原論文里8和32區(qū)別不大（懶得翻論文了，全憑記憶，如果有錯(cuò)誤請指正）

10.如果你數(shù)據(jù)量較大，那建議用更大的rank，來得到一個(gè)更大的旁路矩陣，它顯然可以記住更多的東西。

11.與此同時(shí)，除了q_proj,v_proj，強(qiáng)烈建議再試一下把所有的線性層都上lora，如k_proj, up_proj, down_proj這些。

12.此外lora_alpha也很重要，它通常和lora_rank是正比關(guān)系，表示一個(gè)縮放系數(shù)。alpha越大，表示新建的旁路矩陣影響力越大、新數(shù)據(jù)學(xué)得越“猛”；alpha越小，表示原始模型參數(shù)對結(jié)果的影響力越大。

13.很多人喜歡設(shè)置alpha是rank的2倍，其實(shí)可以二者1: 1跑個(gè)baseline看看效果。

網(wǎng)友補(bǔ)充：

1、SFT和pretrain的任務(wù)在有些大模型例如ChatGLM是不一樣的，對于把pretrain放到SFT來保持所謂的防止遺忘并沒有感覺到明顯差異。

2、對于小數(shù)據(jù)集，設(shè)置一個(gè)好的prefix，在很多epoch（大于100）的情況仍然保持不錯(cuò)的提升。

3、lora對顯存的節(jié)約是很明顯的，只是很多代碼類似zero的思想并不契合lora（把模型切分放到最后，認(rèn)為是最不占用顯存的，然而lora相反）。

4、lora的效果和全量在我做的實(shí)驗(yàn)下是有明顯差距的（例如在某些指標(biāo)上經(jīng)常>4%絕對值的差距），和論文中的理想情況不同，并且lora比較吃分層學(xué)習(xí)率，程度和crf比較接近了

5、lora的秩的值設(shè)置在1-16上還是存在不小的區(qū)別，從16到128上經(jīng)常只是一些收斂上的差異，例如128可能n個(gè)epoch收斂到x，16可能要2n，但并不絕對，而且r大時(shí)間久，一般16-32是比較推薦的

6、DPO和RLHF根據(jù)個(gè)人理解，對chosen-rejected數(shù)據(jù)的質(zhì)量需求是不同的，選擇RLHF仍然是更好的選擇，對于顯存不夠的部分人來說，可以例如lora，將actor和ref共用一個(gè)，critic和reward共用一個(gè)，把顯存從4x降低為2x。寧可這樣也盡量把顯存盡可能用來提高critic模型的參數(shù)量

網(wǎng)友：暫時(shí)先寫這么多，可能過倆月再看又是一篇漏洞百出的想法，

但總是要在摸索中前進(jìn)吧～

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴