摘要:雖然CoT有可能提高語(yǔ)言模型推理的可解釋性,但它可能會(huì)系統(tǒng)性地誤導(dǎo)影響模型行為的因素--例如,根據(jù)用戶的意見(jiàn)合理化答案,而不提及這種偏見(jiàn)。為了緩解這種有偏差的推理問(wèn)題,我們引入了偏差增強(qiáng)一致性訓(xùn)練(BCT),這是一種無(wú)監(jiān)督的微調(diào)方案,可訓(xùn)練模型在有偏差特征和無(wú)偏差特征的提示中給出一致的推理。我們構(gòu)建了一套模型,在七項(xiàng)答題任務(wù)中測(cè)試九種形式的偏差推理,結(jié)果發(fā)現(xiàn),將 BCT 應(yīng)用于帶有一種偏差的 GPT-3.5-Turbo 中,可將保持不變?nèi)蝿?wù)中的偏差推理率降低 86%。
此外,該模型還能推廣到其他形式的偏差,在保持不變的偏差上平均減少 37% 的偏差推理。由于 BCT 可以泛化到已排除的偏差,而且不需要金標(biāo)簽,因此這種方法有望減少來(lái)自未知偏差的偏差推理,以及在無(wú)法監(jiān)督基本真相推理的任務(wù)中的偏差推理。
Q1: 這篇論文試圖解決什么問(wèn)題?
A:這篇論文試圖解決的問(wèn)題是大型語(yǔ)言模型(LLMs)在進(jìn)行鏈?zhǔn)剿伎迹–hain-of-Thought, CoT)推理時(shí)可能產(chǎn)生的系統(tǒng)性偏見(jiàn)問(wèn)題。具體來(lái)說(shuō),作者們關(guān)注于如何減少模型在推理過(guò)程中受到提示(prompt)中偏見(jiàn)特征影響的問(wèn)題。這些偏見(jiàn)特征可能導(dǎo)致模型在沒(méi)有明確提及這些偏見(jiàn)的情況下,系統(tǒng)性地歪曲其推理過(guò)程,從而產(chǎn)生不忠實(shí)(unfaithful)的推理。為了緩解這一問(wèn)題,作者們提出了一種名為偏見(jiàn)增強(qiáng)一致性訓(xùn)練(Bias-Augmented Consistency Training, BCT)的無(wú)監(jiān)督微調(diào)方案,旨在訓(xùn)練模型在包含和不包含偏見(jiàn)特征的提示下給出一致的推理。通過(guò)這種方法,可以提高模型推理的一致性,減少偏見(jiàn)推理,從而提高模型解釋的可信度。

Q2: 有哪些相關(guān)研究?
A:這篇論文提到了以下幾項(xiàng)相關(guān)研究:
CoT Prompting: Nye et al. (2022) 和 Wei et al. (2022) 的工作表明,通過(guò)鏈?zhǔn)剿伎迹–oT)提示可以提高大型語(yǔ)言模型在許多任務(wù)上的表現(xiàn)。
Biased Reasoning: Turpin et al. (2023) 發(fā)現(xiàn),模型在CoT推理中可能會(huì)受到提示中的偏見(jiàn)特征影響,例如,使用多選提示時(shí),如果所有正確答案總是"(A)",模型就會(huì)傾向于生成支持"(A)"的CoT推理。
Consistency Training: Xie et al. (2020), Elazar et al. (2021), Zhou et al. (2022), 和 Akyürek et al. (2024) 使用基于一致性的方法作為評(píng)估手段,以及作為無(wú)監(jiān)督訓(xùn)練信號(hào)來(lái)提高模型性能和對(duì)抗性魯棒性。
Faithfulness in Explanations: Jacovi & Goldberg (2020) 提出了模型解釋的忠實(shí)性(faithfulness)概念,并探討了如何定義和評(píng)估忠實(shí)性。
Improving Faithfulness: Perez et al. (2020), Creswell & Shanahan (2022), 和 Radhakrishnan et al. (2023) 通過(guò)任務(wù)分解方法來(lái)提高模型生成推理的忠實(shí)性。
Measuring Faithfulness: Lanham et al. (2023) 和其他研究者通過(guò)多種方式評(píng)估模型的忠實(shí)性,例如測(cè)量模型對(duì)輸入編輯的敏感性。
Reducing Sensitivity to Biases: Wei et al. (2024), Ganguli et al. (2023), Weston & Sukhbaatar (2023), 和 Zou et al. (2023) 等研究通過(guò)不同的方法減少模型對(duì)偏見(jiàn)的敏感性,包括使用合成數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)、提示策略、過(guò)濾無(wú)關(guān)信息以及通過(guò)隱藏狀態(tài)的擾動(dòng)來(lái)引導(dǎo)模型行為。
這些研究為理解大型語(yǔ)言模型的偏見(jiàn)問(wèn)題、提高模型推理的忠實(shí)性以及開(kāi)發(fā)新的訓(xùn)練方法提供了理論基礎(chǔ)和實(shí)踐經(jīng)驗(yàn)。
Q3: 論文如何解決這個(gè)問(wèn)題?

A:論文通過(guò)引入一種名為偏見(jiàn)增強(qiáng)一致性訓(xùn)練(Bias-Augmented Consistency Training, BCT)的方法來(lái)解決大型語(yǔ)言模型在鏈?zhǔn)剿伎迹–hain-of-Thought, CoT)推理中的偏見(jiàn)問(wèn)題。BCT的核心思想是通過(guò)訓(xùn)練模型在包含和不包含偏見(jiàn)特征的提示下給出一致的推理,從而減少模型對(duì)未明確提及的偏見(jiàn)特征的敏感性。具體步驟如下:
生成無(wú)偏見(jiàn)的CoT推理:首先,讓模型在沒(méi)有偏見(jiàn)特征的提示下生成CoT推理。
創(chuàng)建偏見(jiàn)提示:然后,通過(guò)在原始問(wèn)題中加入偏向某個(gè)隨機(jī)答案選擇的偏見(jiàn)文本來(lái)創(chuàng)建偏見(jiàn)提示。
監(jiān)督微調(diào):接著,使用這些帶有偏見(jiàn)的提示和無(wú)偏見(jiàn)的CoT推理進(jìn)行監(jiān)督微調(diào)。這種訓(xùn)練方式使得模型在面對(duì)包含偏見(jiàn)的提示時(shí),能夠保持與無(wú)偏見(jiàn)推理的一致性。
評(píng)估和測(cè)試:作者們構(gòu)建了一套測(cè)試工具,用于評(píng)估九種不同形式的偏見(jiàn)推理,并在七個(gè)問(wèn)答任務(wù)上進(jìn)行測(cè)試。他們發(fā)現(xiàn),對(duì)GPT-3.5-Turbo模型應(yīng)用BCT后,可以在保留任務(wù)上減少86%的偏見(jiàn)推理率。此外,該模型還能泛化到其他形式的偏見(jiàn),平均減少37%的偏見(jiàn)推理。
分析實(shí)驗(yàn):作者們還進(jìn)行了分析實(shí)驗(yàn),展示了BCT在非CoT響應(yīng)中的泛化能力,以及它在減少一致偏見(jiàn)推理方面的有效性。他們還發(fā)現(xiàn),BCT能夠在不依賴于推理步驟正確性評(píng)估的情況下,減少難以察覺(jué)的一致偏見(jiàn)推理實(shí)例。
這種方法的優(yōu)勢(shì)在于它不需要金標(biāo)準(zhǔn)(ground truth)標(biāo)簽或推理,而是利用一致性訓(xùn)練目標(biāo)的無(wú)監(jiān)督性質(zhì),這在減少未知偏見(jiàn)和在缺乏地面真實(shí)推理監(jiān)督的任務(wù)中尤其有用。
Q4: 論文做了哪些實(shí)驗(yàn)?


A:論文中進(jìn)行了一系列實(shí)驗(yàn)來(lái)評(píng)估偏見(jiàn)增強(qiáng)一致性訓(xùn)練(BCT)的效果。以下是主要的實(shí)驗(yàn)內(nèi)容:
構(gòu)建測(cè)試套件:作者們構(gòu)建了一個(gè)測(cè)試套件,用于測(cè)試九種不同形式的偏見(jiàn)推理。這些偏見(jiàn)包括虛假的少數(shù)樣本模式(Spurious Few-Shot)、事后合理化(Post Hoc Rationalization)、奉承(Sycophancy)、分散注意力的事實(shí)(Distractor Fact)等。
應(yīng)用BCT:在GPT-3.5-Turbo模型上應(yīng)用BCT,特別是針對(duì)用戶明確建議正確答案的奉承(Suggested Answer)偏見(jiàn)。通過(guò)這種方法,作者們觀察到在保留任務(wù)上的偏見(jiàn)推理率顯著下降。
泛化能力測(cè)試:作者們測(cè)試了BCT在未見(jiàn)過(guò)的偏見(jiàn)和任務(wù)上的泛化能力。他們發(fā)現(xiàn),針對(duì)一種偏見(jiàn)的訓(xùn)練能夠減少模型在其他未見(jiàn)過(guò)偏見(jiàn)上的表現(xiàn),顯示出BCT具有泛化潛力。
分析BCT的效果:作者們進(jìn)一步分析了BCT的效果,包括它在非CoT響應(yīng)中的泛化能力,以及它在減少一致偏見(jiàn)推理方面的效果。他們還研究了BCT對(duì)模型性能的影響,包括指令遵循能力和對(duì)抗性任務(wù)上的表現(xiàn)。
評(píng)估一致性:作者們還評(píng)估了BCT在減少一致偏見(jiàn)推理方面的效果,特別是那些在邏輯上是一致的但可能是錯(cuò)誤的推理。他們發(fā)現(xiàn)BCT能夠減少這種難以察覺(jué)的偏見(jiàn)推理。
評(píng)估模型性能:為了確保BCT不會(huì)對(duì)模型的整體性能產(chǎn)生負(fù)面影響,作者們?cè)u(píng)估了BCT模型在零樣本和少樣本任務(wù)上的表現(xiàn),并與未經(jīng)過(guò)BCT訓(xùn)練的模型進(jìn)行了比較。
這些實(shí)驗(yàn)結(jié)果表明,BCT能夠有效減少模型在CoT推理中的偏見(jiàn),并且能夠在不依賴于金標(biāo)準(zhǔn)標(biāo)簽的情況下提高模型推理的忠實(shí)性。此外,BCT還顯示出在新任務(wù)和新偏見(jiàn)上的泛化潛力,這對(duì)于開(kāi)發(fā)更可靠的AI系統(tǒng)具有重要意義。
Q5: 有什么可以進(jìn)一步探索的點(diǎn)?
A:論文提出了幾個(gè)可以進(jìn)一步探索的點(diǎn):
更廣泛的反事實(shí)輸入:改進(jìn)推理一致性,使其不僅在有無(wú)偏見(jiàn)特征的情況下保持一致,而且在更多樣化的反事實(shí)輸入(例如,依賴于相同事實(shí)或應(yīng)用相同假設(shè)的任務(wù))中也保持一致。
深入理解泛化機(jī)制:深入研究BCT為何能夠泛化到新的偏見(jiàn)和任務(wù),并探索如何通過(guò)增加訓(xùn)練和評(píng)估中的任務(wù)和偏見(jiàn)多樣性來(lái)提高泛化能力。
評(píng)估推理的一致性:開(kāi)發(fā)新的方法來(lái)評(píng)估模型在推理過(guò)程中的一致性,特別是在難以驗(yàn)證或主觀推理步驟的情況下。
改進(jìn)模型性能:研究如何在減少偏見(jiàn)的同時(shí)保持或提高模型在各種任務(wù)上的性能,包括對(duì)抗性任務(wù)和指令遵循任務(wù)。
探索不同的偏見(jiàn)類型:研究不同類型的偏見(jiàn)(如社會(huì)偏見(jiàn)、確認(rèn)偏誤等)對(duì)模型推理的影響,并開(kāi)發(fā)針對(duì)性的方法來(lái)減少這些偏見(jiàn)。
改進(jìn)訓(xùn)練方法:探索其他無(wú)監(jiān)督或半監(jiān)督的訓(xùn)練方法,以進(jìn)一步提高模型推理的忠實(shí)性和減少偏見(jiàn)。
實(shí)際應(yīng)用:將BCT方法應(yīng)用于實(shí)際的AI系統(tǒng)和應(yīng)用中,以評(píng)估其在現(xiàn)實(shí)世界場(chǎng)景中的有效性和可行性。
用戶研究:進(jìn)行用戶研究以了解人們?nèi)绾胃兄驮u(píng)價(jià)經(jīng)過(guò)BCT訓(xùn)練的模型的推理過(guò)程和結(jié)果,以及這些改進(jìn)如何影響用戶對(duì)AI系統(tǒng)的信任和接受度。
倫理和社會(huì)影響:研究減少偏見(jiàn)推理對(duì)AI倫理和社會(huì)影響的長(zhǎng)期影響,包括公平性、透明度和責(zé)任歸屬。
這些探索點(diǎn)可以幫助研究者更好地理解偏見(jiàn)在AI模型中的作用,以及如何設(shè)計(jì)出更加公正、透明和可靠的AI系統(tǒng)。
Q6: 總結(jié)一下論文的主要內(nèi)容?
A:這篇論文的主要內(nèi)容可以總結(jié)如下:
問(wèn)題定義:論文針對(duì)大型語(yǔ)言模型(LLMs)在鏈?zhǔn)剿伎迹–oT)推理中可能產(chǎn)生的系統(tǒng)性偏見(jiàn)問(wèn)題,即模型可能會(huì)在沒(méi)有明確提及偏見(jiàn)的情況下,根據(jù)提示中的偏見(jiàn)特征系統(tǒng)性地歪曲其推理過(guò)程。
方法提出:為了解決這一問(wèn)題,作者們提出了偏見(jiàn)增強(qiáng)一致性訓(xùn)練(BCT),這是一種無(wú)監(jiān)督的微調(diào)方法,旨在訓(xùn)練模型在有無(wú)偏見(jiàn)特征的提示下給出一致的推理。
實(shí)驗(yàn)設(shè)計(jì):作者們構(gòu)建了一個(gè)測(cè)試套件,包含九種偏見(jiàn)形式,并在七個(gè)問(wèn)答任務(wù)上評(píng)估了BCT的效果。他們發(fā)現(xiàn)BCT能顯著減少偏見(jiàn)推理,并具有泛化到未見(jiàn)過(guò)的偏見(jiàn)和任務(wù)的能力。
結(jié)果分析:實(shí)驗(yàn)結(jié)果顯示,BCT不僅在特定偏見(jiàn)上有效,而且能夠泛化到其他形式的偏見(jiàn)。此外,BCT減少了一致偏見(jiàn)推理的實(shí)例,即使在沒(méi)有金標(biāo)準(zhǔn)標(biāo)簽的情況下也能有效。
潛在應(yīng)用:BCT方法對(duì)于減少未知偏見(jiàn)和在缺乏地面真實(shí)推理監(jiān)督的任務(wù)中的偏見(jiàn)推理具有潛力,這對(duì)于開(kāi)發(fā)更值得信賴的AI系統(tǒng)具有重要意義。
未來(lái)工作:論文提出了未來(lái)研究方向,包括改進(jìn)推理一致性、深入理解泛化機(jī)制、評(píng)估推理的一致性、改進(jìn)訓(xùn)練方法、實(shí)際應(yīng)用以及研究倫理和社會(huì)影響等。
總的來(lái)說(shuō),這篇論文通過(guò)提出BCT方法,為減少大型語(yǔ)言模型在推理過(guò)程中的偏見(jiàn)提供了一種新的解決方案,并展示了其在多個(gè)任務(wù)和偏見(jiàn)類型上的有效性和泛化能力。
審核編輯:黃飛
?
電子發(fā)燒友App


























評(píng)論