通過(guò)增強(qiáng)一致性訓(xùn)練，有效緩解CoT中的偏見(jiàn)問(wèn)題

摘要：雖然CoT有可能提高語(yǔ)言模型推理的可解釋性，但它可能會(huì)系統(tǒng)性地誤導(dǎo)影響模型行為的因素--例如，根據(jù)用戶的意見(jiàn)合理化答案，而不提及這種偏見(jiàn)。為了緩解這種有偏差的推理問(wèn)題，我們引入了偏差增強(qiáng)一致性訓(xùn)練（BCT），這是一種無(wú)監(jiān)督的微調(diào)方案，可訓(xùn)練模型在有偏差特征和無(wú)偏差特征的提示中給出一致的推理。我們構(gòu)建了一套模型，在七項(xiàng)答題任務(wù)中測(cè)試九種形式的偏差推理，結(jié)果發(fā)現(xiàn)，將 BCT 應(yīng)用于帶有一種偏差的 GPT-3.5-Turbo 中，可將保持不變?nèi)蝿?wù)中的偏差推理率降低 86%。

此外，該模型還能推廣到其他形式的偏差，在保持不變的偏差上平均減少 37% 的偏差推理。由于 BCT 可以泛化到已排除的偏差，而且不需要金標(biāo)簽，因此這種方法有望減少來(lái)自未知偏差的偏差推理，以及在無(wú)法監(jiān)督基本真相推理的任務(wù)中的偏差推理。

Q1: 這篇論文試圖解決什么問(wèn)題？

A：這篇論文試圖解決的問(wèn)題是大型語(yǔ)言模型（LLMs）在進(jìn)行鏈?zhǔn)剿伎迹–hain-of-Thought, CoT）推理時(shí)可能產(chǎn)生的系統(tǒng)性偏見(jiàn)問(wèn)題。具體來(lái)說(shuō)，作者們關(guān)注于如何減少模型在推理過(guò)程中受到提示（prompt）中偏見(jiàn)特征影響的問(wèn)題。這些偏見(jiàn)特征可能導(dǎo)致模型在沒(méi)有明確提及這些偏見(jiàn)的情況下，系統(tǒng)性地歪曲其推理過(guò)程，從而產(chǎn)生不忠實(shí)（unfaithful）的推理。為了緩解這一問(wèn)題，作者們提出了一種名為偏見(jiàn)增強(qiáng)一致性訓(xùn)練（Bias-Augmented Consistency Training, BCT）的無(wú)監(jiān)督微調(diào)方案，旨在訓(xùn)練模型在包含和不包含偏見(jiàn)特征的提示下給出一致的推理。通過(guò)這種方法，可以提高模型推理的一致性，減少偏見(jiàn)推理，從而提高模型解釋的可信度。

Q2: 有哪些相關(guān)研究？

A：這篇論文提到了以下幾項(xiàng)相關(guān)研究：

CoT Prompting: Nye et al. (2022) 和 Wei et al. (2022) 的工作表明，通過(guò)鏈?zhǔn)剿伎迹–oT）提示可以提高大型語(yǔ)言模型在許多任務(wù)上的表現(xiàn)。

Biased Reasoning: Turpin et al. (2023) 發(fā)現(xiàn)，模型在CoT推理中可能會(huì)受到提示中的偏見(jiàn)特征影響，例如，使用多選提示時(shí)，如果所有正確答案總是"(A)"，模型就會(huì)傾向于生成支持"(A)"的CoT推理。

Consistency Training: Xie et al. (2020), Elazar et al. (2021), Zhou et al. (2022), 和 Akyürek et al. (2024) 使用基于一致性的方法作為評(píng)估手段，以及作為無(wú)監(jiān)督訓(xùn)練信號(hào)來(lái)提高模型性能和對(duì)抗性魯棒性。

Faithfulness in Explanations: Jacovi & Goldberg (2020) 提出了模型解釋的忠實(shí)性（faithfulness）概念，并探討了如何定義和評(píng)估忠實(shí)性。

Improving Faithfulness: Perez et al. (2020), Creswell & Shanahan (2022), 和 Radhakrishnan et al. (2023) 通過(guò)任務(wù)分解方法來(lái)提高模型生成推理的忠實(shí)性。

Measuring Faithfulness: Lanham et al. (2023) 和其他研究者通過(guò)多種方式評(píng)估模型的忠實(shí)性，例如測(cè)量模型對(duì)輸入編輯的敏感性。

Reducing Sensitivity to Biases: Wei et al. (2024), Ganguli et al. (2023), Weston & Sukhbaatar (2023), 和 Zou et al. (2023) 等研究通過(guò)不同的方法減少模型對(duì)偏見(jiàn)的敏感性，包括使用合成數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)、提示策略、過(guò)濾無(wú)關(guān)信息以及通過(guò)隱藏狀態(tài)的擾動(dòng)來(lái)引導(dǎo)模型行為。

這些研究為理解大型語(yǔ)言模型的偏見(jiàn)問(wèn)題、提高模型推理的忠實(shí)性以及開(kāi)發(fā)新的訓(xùn)練方法提供了理論基礎(chǔ)和實(shí)踐經(jīng)驗(yàn)。

Q3: 論文如何解決這個(gè)問(wèn)題？

A：論文通過(guò)引入一種名為偏見(jiàn)增強(qiáng)一致性訓(xùn)練（Bias-Augmented Consistency Training, BCT）的方法來(lái)解決大型語(yǔ)言模型在鏈?zhǔn)剿伎迹–hain-of-Thought, CoT）推理中的偏見(jiàn)問(wèn)題。BCT的核心思想是通過(guò)訓(xùn)練模型在包含和不包含偏見(jiàn)特征的提示下給出一致的推理，從而減少模型對(duì)未明確提及的偏見(jiàn)特征的敏感性。具體步驟如下：

生成無(wú)偏見(jiàn)的CoT推理：首先，讓模型在沒(méi)有偏見(jiàn)特征的提示下生成CoT推理。

創(chuàng)建偏見(jiàn)提示：然后，通過(guò)在原始問(wèn)題中加入偏向某個(gè)隨機(jī)答案選擇的偏見(jiàn)文本來(lái)創(chuàng)建偏見(jiàn)提示。

監(jiān)督微調(diào)：接著，使用這些帶有偏見(jiàn)的提示和無(wú)偏見(jiàn)的CoT推理進(jìn)行監(jiān)督微調(diào)。這種訓(xùn)練方式使得模型在面對(duì)包含偏見(jiàn)的提示時(shí)，能夠保持與無(wú)偏見(jiàn)推理的一致性。

評(píng)估和測(cè)試：作者們構(gòu)建了一套測(cè)試工具，用于評(píng)估九種不同形式的偏見(jiàn)推理，并在七個(gè)問(wèn)答任務(wù)上進(jìn)行測(cè)試。他們發(fā)現(xiàn)，對(duì)GPT-3.5-Turbo模型應(yīng)用BCT后，可以在保留任務(wù)上減少86%的偏見(jiàn)推理率。此外，該模型還能泛化到其他形式的偏見(jiàn)，平均減少37%的偏見(jiàn)推理。

分析實(shí)驗(yàn)：作者們還進(jìn)行了分析實(shí)驗(yàn)，展示了BCT在非CoT響應(yīng)中的泛化能力，以及它在減少一致偏見(jiàn)推理方面的有效性。他們還發(fā)現(xiàn)，BCT能夠在不依賴于推理步驟正確性評(píng)估的情況下，減少難以察覺(jué)的一致偏見(jiàn)推理實(shí)例。

這種方法的優(yōu)勢(shì)在于它不需要金標(biāo)準(zhǔn)（ground truth）標(biāo)簽或推理，而是利用一致性訓(xùn)練目標(biāo)的無(wú)監(jiān)督性質(zhì)，這在減少未知偏見(jiàn)和在缺乏地面真實(shí)推理監(jiān)督的任務(wù)中尤其有用。

Q4: 論文做了哪些實(shí)驗(yàn)？

A：論文中進(jìn)行了一系列實(shí)驗(yàn)來(lái)評(píng)估偏見(jiàn)增強(qiáng)一致性訓(xùn)練（BCT）的效果。以下是主要的實(shí)驗(yàn)內(nèi)容：

構(gòu)建測(cè)試套件：作者們構(gòu)建了一個(gè)測(cè)試套件，用于測(cè)試九種不同形式的偏見(jiàn)推理。這些偏見(jiàn)包括虛假的少數(shù)樣本模式（Spurious Few-Shot）、事后合理化（Post Hoc Rationalization）、奉承（Sycophancy）、分散注意力的事實(shí)（Distractor Fact）等。

應(yīng)用BCT：在GPT-3.5-Turbo模型上應(yīng)用BCT，特別是針對(duì)用戶明確建議正確答案的奉承（Suggested Answer）偏見(jiàn)。通過(guò)這種方法，作者們觀察到在保留任務(wù)上的偏見(jiàn)推理率顯著下降。

泛化能力測(cè)試：作者們測(cè)試了BCT在未見(jiàn)過(guò)的偏見(jiàn)和任務(wù)上的泛化能力。他們發(fā)現(xiàn)，針對(duì)一種偏見(jiàn)的訓(xùn)練能夠減少模型在其他未見(jiàn)過(guò)偏見(jiàn)上的表現(xiàn)，顯示出BCT具有泛化潛力。

分析BCT的效果：作者們進(jìn)一步分析了BCT的效果，包括它在非CoT響應(yīng)中的泛化能力，以及它在減少一致偏見(jiàn)推理方面的效果。他們還研究了BCT對(duì)模型性能的影響，包括指令遵循能力和對(duì)抗性任務(wù)上的表現(xiàn)。

評(píng)估一致性：作者們還評(píng)估了BCT在減少一致偏見(jiàn)推理方面的效果，特別是那些在邏輯上是一致的但可能是錯(cuò)誤的推理。他們發(fā)現(xiàn)BCT能夠減少這種難以察覺(jué)的偏見(jiàn)推理。

評(píng)估模型性能：為了確保BCT不會(huì)對(duì)模型的整體性能產(chǎn)生負(fù)面影響，作者們?cè)u(píng)估了BCT模型在零樣本和少樣本任務(wù)上的表現(xiàn)，并與未經(jīng)過(guò)BCT訓(xùn)練的模型進(jìn)行了比較。

這些實(shí)驗(yàn)結(jié)果表明，BCT能夠有效減少模型在CoT推理中的偏見(jiàn)，并且能夠在不依賴于金標(biāo)準(zhǔn)標(biāo)簽的情況下提高模型推理的忠實(shí)性。此外，BCT還顯示出在新任務(wù)和新偏見(jiàn)上的泛化潛力，這對(duì)于開(kāi)發(fā)更可靠的AI系統(tǒng)具有重要意義。

Q5: 有什么可以進(jìn)一步探索的點(diǎn)？

A：論文提出了幾個(gè)可以進(jìn)一步探索的點(diǎn)：

更廣泛的反事實(shí)輸入：改進(jìn)推理一致性，使其不僅在有無(wú)偏見(jiàn)特征的情況下保持一致，而且在更多樣化的反事實(shí)輸入（例如，依賴于相同事實(shí)或應(yīng)用相同假設(shè)的任務(wù)）中也保持一致。

深入理解泛化機(jī)制：深入研究BCT為何能夠泛化到新的偏見(jiàn)和任務(wù)，并探索如何通過(guò)增加訓(xùn)練和評(píng)估中的任務(wù)和偏見(jiàn)多樣性來(lái)提高泛化能力。

評(píng)估推理的一致性：開(kāi)發(fā)新的方法來(lái)評(píng)估模型在推理過(guò)程中的一致性，特別是在難以驗(yàn)證或主觀推理步驟的情況下。

改進(jìn)模型性能：研究如何在減少偏見(jiàn)的同時(shí)保持或提高模型在各種任務(wù)上的性能，包括對(duì)抗性任務(wù)和指令遵循任務(wù)。

探索不同的偏見(jiàn)類型：研究不同類型的偏見(jiàn)（如社會(huì)偏見(jiàn)、確認(rèn)偏誤等）對(duì)模型推理的影響，并開(kāi)發(fā)針對(duì)性的方法來(lái)減少這些偏見(jiàn)。

改進(jìn)訓(xùn)練方法：探索其他無(wú)監(jiān)督或半監(jiān)督的訓(xùn)練方法，以進(jìn)一步提高模型推理的忠實(shí)性和減少偏見(jiàn)。

實(shí)際應(yīng)用：將BCT方法應(yīng)用于實(shí)際的AI系統(tǒng)和應(yīng)用中，以評(píng)估其在現(xiàn)實(shí)世界場(chǎng)景中的有效性和可行性。

用戶研究：進(jìn)行用戶研究以了解人們?nèi)绾胃兄驮u(píng)價(jià)經(jīng)過(guò)BCT訓(xùn)練的模型的推理過(guò)程和結(jié)果，以及這些改進(jìn)如何影響用戶對(duì)AI系統(tǒng)的信任和接受度。

倫理和社會(huì)影響：研究減少偏見(jiàn)推理對(duì)AI倫理和社會(huì)影響的長(zhǎng)期影響，包括公平性、透明度和責(zé)任歸屬。

這些探索點(diǎn)可以幫助研究者更好地理解偏見(jiàn)在AI模型中的作用，以及如何設(shè)計(jì)出更加公正、透明和可靠的AI系統(tǒng)。

Q6: 總結(jié)一下論文的主要內(nèi)容？

A：這篇論文的主要內(nèi)容可以總結(jié)如下：

問(wèn)題定義：論文針對(duì)大型語(yǔ)言模型（LLMs）在鏈?zhǔn)剿伎迹–oT）推理中可能產(chǎn)生的系統(tǒng)性偏見(jiàn)問(wèn)題，即模型可能會(huì)在沒(méi)有明確提及偏見(jiàn)的情況下，根據(jù)提示中的偏見(jiàn)特征系統(tǒng)性地歪曲其推理過(guò)程。

方法提出：為了解決這一問(wèn)題，作者們提出了偏見(jiàn)增強(qiáng)一致性訓(xùn)練（BCT），這是一種無(wú)監(jiān)督的微調(diào)方法，旨在訓(xùn)練模型在有無(wú)偏見(jiàn)特征的提示下給出一致的推理。

實(shí)驗(yàn)設(shè)計(jì)：作者們構(gòu)建了一個(gè)測(cè)試套件，包含九種偏見(jiàn)形式，并在七個(gè)問(wèn)答任務(wù)上評(píng)估了BCT的效果。他們發(fā)現(xiàn)BCT能顯著減少偏見(jiàn)推理，并具有泛化到未見(jiàn)過(guò)的偏見(jiàn)和任務(wù)的能力。

結(jié)果分析：實(shí)驗(yàn)結(jié)果顯示，BCT不僅在特定偏見(jiàn)上有效，而且能夠泛化到其他形式的偏見(jiàn)。此外，BCT減少了一致偏見(jiàn)推理的實(shí)例，即使在沒(méi)有金標(biāo)準(zhǔn)標(biāo)簽的情況下也能有效。

潛在應(yīng)用：BCT方法對(duì)于減少未知偏見(jiàn)和在缺乏地面真實(shí)推理監(jiān)督的任務(wù)中的偏見(jiàn)推理具有潛力，這對(duì)于開(kāi)發(fā)更值得信賴的AI系統(tǒng)具有重要意義。

未來(lái)工作：論文提出了未來(lái)研究方向，包括改進(jìn)推理一致性、深入理解泛化機(jī)制、評(píng)估推理的一致性、改進(jìn)訓(xùn)練方法、實(shí)際應(yīng)用以及研究倫理和社會(huì)影響等。

總的來(lái)說(shuō)，這篇論文通過(guò)提出BCT方法，為減少大型語(yǔ)言模型在推理過(guò)程中的偏見(jiàn)提供了一種新的解決方案，并展示了其在多個(gè)任務(wù)和偏見(jiàn)類型上的有效性和泛化能力。

審核編輯：黃飛

閱讀全文

大模型(5063) 大模型(5063)

評(píng)論

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

通過(guò)增強(qiáng)一致性訓(xùn)練，有效緩解CoT中的偏見(jiàn)問(wèn)題

評(píng)論

搜索歷史

通過(guò)增強(qiáng)一致性訓(xùn)練，有效緩解CoT中的偏見(jiàn)問(wèn)題

評(píng)論

通過(guò)增強(qiáng)一致性訓(xùn)練，有效緩解CoT中的偏見(jiàn)問(wèn)題