揭秘大語言模型可信能力的五個關鍵維度

It's not the pre-trained, it's the pre-training.

大模型的通用訓練流程 [1] ? ? ? ? ?

在大語言模型（Large Language Models，LLMs）的訓練過程中，預訓練階段消耗了大量資源，也充滿了太多未被揭開的秘密。根據OpenAI的研究，InstructGPT在預訓練階段幾乎使用了所有的計算和數據資源（高達98%） [2]。有監(jiān)督微調（Supervised fine-tuning，SFT）和人類反饋強化學習（Reinforment Learning Human Feedback，RLHF）能夠激活預訓練模型內部已存在的能力，而這些能力僅僅通過提示工程難以發(fā)掘。但是，預訓練的價值遠不止于此，它像一個充滿潛力的神秘盒子，等待我們去探索其更深層次的價值和隱藏的機制。 ? ? ? ? ??

預訓練模型就像一個未加控制的野獸，神秘而強大。通過高質量數據進行微調，我們可以使這個野獸適應社會的需要；隨后通過RLHF進一步完善，模型更加貼近用戶的具體需求。對齊技術如SFT和RLHF等，可以被看作是對這個野獸的馴化。但目標不止如此，我們更希望深入了解它，探究使得LLMs展現出其獨特能力的根本過程--The Pre-training。大部分開源LLMs僅提供模型權重和性能測試的結果，但是要真正理解一個模型的行為，需要更多的信息。LLM360 [4] 和 OLMo [5] 的全面開源為研究者和社區(qū)提供了全面和深入的信息共享，涵蓋了訓練數據、算法設置、實現挑戰(zhàn)以及性能評估的細節(jié)，極大地增加了LLMs預訓練過程的透明度，幫助我們理解這些LLMs的工作原理。我們都想知道這個問題的答案，人類可以信任LLMs嗎？作為一個觀察者，我們嘗試從預訓練階段來窺探這個龐然大物。我們致力于理解LLMs在預訓練階段是如何建?？尚牛═rustworthiness）的，并基于這個理解，探索預訓練階段是否能為增強LLMs的可信提供指導。? ??

論文標題：Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period of Large Language Models 論文鏈接：https://arxiv.org/abs/2402.19465 項目主頁：https://github.com/ChnQ/TracingLLM

在此工作中，我們首次給出了如下幾個觀察： ?我們發(fā)現LLMs在預訓練的早期階段就建立了有關可信概念的線性表征； ?我們發(fā)現預訓練過程中，LLMs表現出對于可信概念類似于“信息瓶頸”先擬合、再壓縮的學習過程； ?我們基于表征干預技術，初步驗證了LLMs在預訓練過程中的切片可以幫助提升最終LLMs的可信性。

簡介LLM360 在本文的研究過程中，我們使用了 LLM360[4] 開源項目所提供的豐富LLM預訓練資源。該項目基于1.3萬億 Tokens預訓練出了基礎模型Amber，并均勻地開源了預訓練過程中的360個模型切片，供廣大研究者參考和使用。此外，LLM360進一步推出了兩個微調模型：一是針對指令微調優(yōu)化的AmberChat模型，二是經過安全對齊處理的AmberS afe模型。上述提及的所有模型以及切片均為7B規(guī)模的參數量級。

1 預訓練過程中有關可信概念的線性表征

數據集：本文主要探究可信領域下的五個關鍵維度：可靠性（reliability）、毒性（toxicity）、隱私性（privacy）、公平性（fairness）和魯棒性（robustness）。為了深入研究這些維度，我們分別選取了這五個維度下具有代表性的相關數據集：TruthfulQA、Toxicity、ConfAIde、StereoSet以及經過特定擾動處理的SST-2。我們根據原數據集的設定，對每個樣本進行標注，以標識每句話是否包含不正確、有毒、隱私泄露、有歧視和被擾動的信息。實驗設置：本文采用線性探針方法 [6]。具體地，在得到360個切片對于每個數據集的表征以后，我們對于每個切片的每一層都訓練一個線性分類器，線性分類器的正確率代表著模型內部表征區(qū)分不同標簽的能力。前75個切片實驗效果如下：從第76個到360的切片的實驗結果請移步正文附錄，實驗趨勢大體相同，基本趨于平緩的波動。實驗結果說明兩點： ?隨著預訓練的進行，在這五個可信維度上，大模型中間層的表征可以很好地區(qū)分是否可信 ? ? ?大模型在預訓練的早期階段就已經可以很好地區(qū)分是否可信

2 信息瓶頸視角下有關可信概念的預訓練動態(tài) 已有理論結果 [7] 證明線性探針的準確率可以用來界定互信息估計器。受到利用互信息來探測模型訓練動態(tài)的啟發(fā) [8]，本文也利用互信息對模型表征的動態(tài)變化做了初步探索。類似 [8] 用信息平面研究傳統(tǒng)神經網絡的訓練過程，我們分別研究模型表征T與上面五個原始數據集X的互信息，和模型表征T與數據集標簽Y的互信息。實驗結果如下：后續(xù)預訓練過程的變化趨勢見附錄，幾乎保持平緩的波動。分開看這兩張圖，T和X的互信息先上升后下降，而T和Y的互信息一直在上升。把它們合起來看，這個趨勢與經典論文 [8] 中的“fitting”和“compression”兩階段相符：首先，當大語言模型隨機初始化時，它不具備保留信息的能力，因此互信息幾乎為0；接著，隨著預訓練的進行，大模型逐漸具備語言理解和概念建模的能力，因此互信息持續(xù)增長；最后，隨著預訓練的進一步進行，大模型逐漸學會提取壓縮無關信息并提取有效信息，因此T和X的互信息降低，而T和Y的互信息繼續(xù)增加。從互信息的角度，這是一個很有趣的發(fā)現。即使定義和實驗設置不同，預訓練大語言模型和傳統(tǒng)神經網絡，兩者的預訓練階段都能分為“fitting”和“compression”兩個階段，這暗示著大模型和傳統(tǒng)神經網絡訓練過程中可能存在的一些相似之處。總體來看，據我們所知，本文首次研究大模型在預訓練過程中可信性概念建模的變化情況，我們希望我們的初步探索能幫助領域內的研究者更深入地理解大模型的預訓練過程，啟發(fā)大家用新方法幫助大模型變得更加可信。

3 基于引導向量的表征干預：預訓練知識如何助力模型可信能力提升

3.1 Activation Intervention 我們觀察到，既然LLMs在其預訓練階段就已經學習到了有關可信概念線性可分的表征，那么不同于現在的大多數技術如SFT，RLHF等在完成預訓練的模型上進一步優(yōu)化，一個很自然的想法是：LLMs在預訓練過程中的切片能不能幫助指令微調模型進行alignment呢？我們基于表征干預的技術（Activation Intervention），給予該問題初步的肯定的回答。

表征干預是LLMs領域中一個正在快速興起的技術，已被多個場景下驗證有效 [9-10]。我們以如何讓LLMs變得更“Truthful”為例 [9]，簡要闡述表征干預技術的基本流程。 1.首先，我們分別使用涵蓋真實與虛假信息的正負prompt對來刺激LLMs獲得其對應的內部表征 2.然后對正負表征的質心作差獲得“指向truthfulness方向的引導向量（steering vector）” 3.最后在LLMs前向推理時每一步產生的表征上加上該引導向量，達到干預輸出的目的

不同于上述工作從待干預模型自身抽取引導向量，我們意在從LLMs預訓練過程的切片中構建引導向量來干預指令微調模型（SFT Model），試圖提升指令微調模型的可信能力，如下圖所示。 ? ? 其中，我們使用北京大學團隊 [11] 開源的PKU-RLHF-10K數據集 [12] 來構建正負prompt對，該數據集提供了一萬條帶有安全/非安全回復標注的對話數據，可用于大模型的 RLHF 訓練。 3.2 實驗結果分析

我們在上文提及的可信領域下五個維度的數據集（TruthfulQA，Toxigen，StereoSet，ConfAIde，SST-2），以及四個常用的大模型通用能力評測數據集（MMLU，ARC，RACE，MathQA）上，評測了四個模型的性能：指令微調模型AmberChat，安全對齊模型AmberSafe，使用來自AmberChat自身的steering vector干預后的AmberChat，使用來自第180個預訓練切片的steering vector干預后的AmberChat。 ? ?

實驗結果表明，在使用來自預訓練切片的steering vector干預SFT模型（AmberChat）表征后，在三個可信維度（Reliability：TruthfulQA，Toxicity：Toxigen，Fairness：StereoSet）上都有較明顯的提升。同時，這種干預對模型通用能力的影響并不顯著（在ARC，MMLU上表現出邊際損失，在MathQA和RACE上表現出有邊際提升）。令人驚訝的是，我們發(fā)現使用預訓練的中間切片構建的steering vector，相比于來自AmberChat自身的引導向量，能更顯著地提升AmberChat模型的可信性能。

4 小結

未來，當我們嘗試對齊比人類更強大的模型時（super-alignment），依賴于“人類反饋”的相關微調技術，如RLHF等，或將不再奏效 [13-14]。為了應對這一可能的挑戰(zhàn)，多個研究機構正在探索新的解決方案。例如，近期OpenAI提出“弱對強監(jiān)督”方法 [13]，Meta提出“self-reward”機制 [14]，同時也有越來越多的研究聚焦于“self-alignment”研究方向的探索 [15-16]。我們的研究為解決類似的super-alignment問題提供了一個新的視角：利用LLMs在預訓練過程中習得的知識來輔助最終的模型對齊。作為研究的起點，我們深入探究預訓練過程中如何建模有關可信的概念。可喜的是，探索初見成效：1）我們發(fā)現大模型在預訓練的早期階段就建立了有關可信概念的線性表征 2）我們發(fā)現大模型對可信概念類似于信息瓶頸的學習過程。此外，表征干預技術的成功應用也初步驗證了預訓練中間切片對輔助模型對齊的有效性。我們希望這份工作能夠為深入理解LLMs如何動態(tài)構建及發(fā)展其內在可信屬性提供新的視角，并啟迪未來在LLMs對齊技術領域的更多創(chuàng)新嘗試。我們期待這些研究成果能進一步推動大模型朝著更可信、更可控的方向發(fā)展，從而在人工智能倫理與安全道路上邁出堅實的一步。

參考文獻

[1] https://huyenchip.com/2023/05/02/rlhf.html ? ?

[2] https://openai.com/research/instruction-following

[3] twitter.com/anthrupad

[4] Liu, Z., Qiao, A., Neiswanger, W., Wang, H., Tan, B., Tao, T., ... & Xing, E. P. (2023). Llm360: Towards fully transparent open-source llms. arXiv preprint arXiv:2312.06550.

[5] Groeneveld, D., Beltagy, I., Walsh, P., Bhagia, A., Kinney, R., Tafjord, O., ... & Hajishirzi, H. (2024). OLMo: Accelerating the Science of Language Models. arXiv preprint arXiv:2402.00838.

[6] Belinkov, Y. (2022). Probing classifiers: Promises, shortcomings, and advances. Computational Linguistics, 48(1), 207-219.

[7] Choi, K., Jung, J. W., & Watanabe, S. (2023). Understanding Probe Behaviors through Variational Bounds of Mutual Information. arXiv preprint arXiv:2312.10019.

[8] Shwartz-Ziv, R., & Tishby, N. (2017). Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810.

[9] Li, K., Patel, O., Viégas, F., Pfister, H., & Wattenberg, M. (2024). Inference-time intervention: Eliciting truthful answers from a language model. Advances in Neural Information Processing Systems, 36.

[10] Turner, A., Thiergart, L., Udell, D., Leech, G., Mini, U., & MacDiarmid, M. (2023). Activation addition: Steering language models without optimization. arXiv preprint arXiv:2308.10248.

[11] Ji, J., Liu, M., Dai, J., Pan, X., Zhang, C., Bian, C., ... & Yang, Y. (2024). Beavertails: Towards improved safety alignment of llm via a human-preference dataset. Advances in Neural Information Processing Systems, 36.

[12] https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF-10K

[13] Burns, C., Izmailov, P., Kirchner, J. H., Baker, B., Gao, L., Aschenbrenner, L., ... & Wu, J. (2023). Weak-to-strong generalization: Eliciting strong capabilities with weak supervision. arXiv preprint arXiv:2312.09390.

[14] Yuan, W., Pang, R. Y., Cho, K., Sukhbaatar, S., Xu, J., & Weston, J. (2024). Self-rewarding language models. arXiv preprint arXiv:2401.10020.

[15] Sun, Z., Shen, Y., Zhou, Q., Zhang, H., Chen, Z., Cox, D., ... & Gan, C. (2024). Principle-driven self-alignment of language models from scratch with minimal human supervision. Advances in Neural Information Processing Systems, 36.

[16] Li, X., Yu, P., Zhou, C., Schick, T., Levy, O., Zettlemoyer, L., ... & Lewis, M. (2023, October). Self-Alignment with Instruction Backtranslation. In The Twelfth International Conference on Learning Representations.

審核編輯：黃飛

閱讀全文

線性分類器(1547) 線性分類器(1547)
大模型(5063) 大模型(5063)

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

揭秘大語言模型可信能力的五個關鍵維度

評論