久久在线有码人人爱夜夜,a∨成人在线电影

在 AI 領(lǐng)域，近期的新聞焦點(diǎn)無(wú)疑是關(guān)于「Scaling Law 是否撞墻？」的辯論。這一曾經(jīng)被視作大模型發(fā)展的第一性原理，如今卻遭遇了挑戰(zhàn)。在這樣的背景下，研究人員開(kāi)始意識(shí)到，與其單純堆砌更多的訓(xùn)練算力和數(shù)據(jù)資源，不如讓模型「花更多時(shí)間思考」。以 OpenAI 推出的 o1 模型為例，通過(guò)增加推理時(shí)間，這種方法讓模型能夠進(jìn)行反思、批評(píng)、回溯和糾正，大幅提升了推理表現(xiàn)。但問(wèn)題在于，傳統(tǒng)的自我反思（Self-Reflection）和自我糾正（Self-Correction）方法存在明顯局限 —— 模型的表現(xiàn)往往受制于自身能力，缺乏外部信號(hào)的引導(dǎo)，因此容易觸及瓶頸，止步不前。

▲單一模型在傳統(tǒng)自我糾正與自我優(yōu)化時(shí)往往難以糾正自身，而雙模型協(xié)作架構(gòu)下能夠獲得更有建設(shè)性的建議。針對(duì)這些挑戰(zhàn)，復(fù)旦 NLP 研究團(tuán)隊(duì)提出了一種全新的雙模型協(xié)作架構(gòu)（Two-Player Paradigm）。簡(jiǎn)單來(lái)說(shuō)，就是讓評(píng)判模型（Critique Model）參與到行為模型（Actor Model）的推理過(guò)程中 —— 行為模型專注推理，評(píng)判模型則以步驟級(jí)別的反饋為行為模型指路。這種設(shè)計(jì)打破了傳統(tǒng)依賴于單一模型的限制，也讓行為模型能夠在訓(xùn)練和推理階段實(shí)現(xiàn)自我改進(jìn)。更重要的是，整個(gè)框架無(wú)需依賴模型蒸餾過(guò)程（例如直接模仿 o1 的思考過(guò)程），而是通過(guò)多模型協(xié)作互動(dòng)獲得了高質(zhì)量、可靠的反饋信號(hào)，最終實(shí)現(xiàn)性能隨計(jì)算投增大的不斷提升。

在這篇工作中，研究團(tuán)隊(duì)聚焦以下四個(gè)核心內(nèi)容：

如何自動(dòng)化構(gòu)建 critique 數(shù)據(jù)集，訓(xùn)練高效、可靠的評(píng)判模型（Critique Model）；

使用評(píng)判模型推動(dòng)測(cè)試階段的擴(kuò)展（Test-time Scaling）；

通過(guò)交互協(xié)作提升行為模型的訓(xùn)練性能（Training-time Scaling）；

基于 critique 數(shù)據(jù)的 Self-talk 幫助模型自我糾錯(cuò)。

作者們提出了一個(gè)創(chuàng)新性框架——AutoMathCritique，可以自動(dòng)生成步驟級(jí)別的反饋（step-level feedback），并基于此構(gòu)建了名為 MathCritique-76k 的數(shù)據(jù)集，用于訓(xùn)練評(píng)判模型。進(jìn)一步，研究團(tuán)隊(duì)深入探討了評(píng)判模型在測(cè)試階段助力推理性能的機(jī)制，并通過(guò)引入雙模型協(xié)作架構(gòu) Critique-in-the-Loop，有效緩解了模型探索與學(xué)習(xí)的自訓(xùn)練過(guò)程中常見(jiàn)的長(zhǎng)尾分布問(wèn)題，為復(fù)現(xiàn) OpenAI o1 深度推理表現(xiàn)開(kāi)辟了新的可能性。

論文題目:

Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision

論文鏈接：

http://arxiv.org/abs/2411.16579

項(xiàng)目主頁(yè)：

https://mathcritique.github.io/

代碼鏈接：

https://github.com/WooooDyy/MathCritique

數(shù)據(jù)鏈接：

https://huggingface.co/datasets/MathCritique/MathCritique-76k

* 本工作部分實(shí)驗(yàn)基于昇騰 910 完成

AutoMathCritique—自動(dòng)化、可擴(kuò)展地構(gòu)造步驟級(jí)Critique數(shù)據(jù)為了研究 Critique 模型在架構(gòu)中的作用與性能，作者們首先訓(xùn)練了一個(gè)可靠的 Critique 模型。鑒于步驟級(jí)別反饋數(shù)據(jù)的稀缺，作者們提出了一種新的框架AutoMathCritique，用于自動(dòng)化構(gòu)造多樣性推理數(shù)據(jù)，并獲得步驟級(jí)別的反饋。

▲ AutoMathCritique 流程：通過(guò)多種方式收集錯(cuò)誤數(shù)據(jù)與錯(cuò)誤信息，并交由標(biāo)注模型進(jìn)行步驟級(jí)別標(biāo)注。在標(biāo)注完相應(yīng)問(wèn)答反饋對(duì)后，交由 Actor 模型進(jìn)行進(jìn)一步篩選。

圖中，第一個(gè)階段「構(gòu)建錯(cuò)誤推理路徑」包含三種策略：

RG1: 直接構(gòu)建整體推理路徑，在高溫度下讓 Actor 模型進(jìn)行重復(fù)采樣，采樣出的數(shù)據(jù)只會(huì)包含最終答案的錯(cuò)誤信息；

RG2: 以某一條推理路徑為模板，在特定的推理步后逐漸提高溫度，讓 Actor 模型采樣出新的軌跡，采樣出的數(shù)據(jù)會(huì)包含最終答案的錯(cuò)誤信息與錯(cuò)誤步驟的位置信息；

RG3: 以某一條推理路徑為模板，對(duì)特定的推理步插入多樣化錯(cuò)誤內(nèi)容，讓 Actor 模型繼續(xù)采樣出完整軌跡，采樣出的數(shù)據(jù)會(huì)包含最終答案的錯(cuò)誤信息與錯(cuò)誤步驟的位置與錯(cuò)誤信息。

第二個(gè)階段「標(biāo)注步驟級(jí)別反饋」提供了詳細(xì)的反饋數(shù)據(jù)：為了更好的提升反饋數(shù)據(jù)的質(zhì)量，研究人員將第一階段獲得的各類錯(cuò)誤信息交由標(biāo)注模型，并提供參考答案、錯(cuò)位定位和錯(cuò)誤類型信息作為輔助，幫助標(biāo)注模型提供步驟級(jí)別的反饋。第三個(gè)階段「精篩反饋」篩選出更加高質(zhì)量的數(shù)據(jù)：為了進(jìn)一步篩選出能夠更好幫助 Actor 模型的數(shù)據(jù)，研究人員將錯(cuò)誤推理路徑與反饋數(shù)據(jù)一起輸入給 Actor 模型，根據(jù)其修改后答案的正確率決定是否保留。

▲AutoMathCritique收集到的信息示例通過(guò)如上方案構(gòu)建的數(shù)據(jù)既包含模型本身所可能犯下的錯(cuò)誤，又構(gòu)建了域外錯(cuò)誤，使 Critique 模型能夠?qū)W習(xí)大批量、多樣化錯(cuò)誤數(shù)據(jù)。而步驟級(jí)別的反饋數(shù)據(jù)使得 Actor 模型能夠更好的定位自己所犯下的錯(cuò)誤，進(jìn)而提升修改的質(zhì)量。使用如上框架，研究團(tuán)隊(duì)構(gòu)建了一個(gè)擁有 76k 數(shù)據(jù)量的數(shù)據(jù)集MathCritique-76k，其中既包含了正確推理軌跡又包含了自動(dòng)化合成的錯(cuò)誤軌跡，并且篩選了優(yōu)質(zhì)的步驟級(jí)別反饋數(shù)據(jù)用于之后的訓(xùn)練。

▲MathCritique-76k 的數(shù)據(jù)構(gòu)成

Critique模型如何幫助Actor模型提高測(cè)試性能？

實(shí)驗(yàn)探究：Critique模型在測(cè)試時(shí)對(duì)Actor模型的幫助

基于如上構(gòu)建的數(shù)據(jù)集，作者以 Llama3-Instruct 系列為基座模型，微調(diào)了一個(gè)專門(mén)用于提供步驟級(jí)別反饋的 Critique 模型。其選取了常用的數(shù)學(xué)推理數(shù)據(jù)集 GSM8K 與 MATH 為測(cè)試對(duì)象，進(jìn)行了多種實(shí)驗(yàn)。 1. Critique 模型對(duì)錯(cuò)誤的識(shí)別率與對(duì) Actor 模型的幫助

▲ 不同 Critique 模型的推理軌跡正誤判斷能力與對(duì) Actor 模型的幫助，Acc. 代表 Actor 模型在不同 Critique 模型的幫助下能夠達(dá)到的正確率。

作者選取了兩個(gè)微調(diào)后的模型與 SOTA 模型作為研究對(duì)象，發(fā)現(xiàn) Critique 模型能夠極為有效地識(shí)別出推理軌跡的正確與否，并且其所提供的步驟級(jí)別反饋能夠被 Actor 模型所用，使得 Actor 模型能夠顯著改進(jìn)自己的錯(cuò)誤，以達(dá)到更高的正確率。為了更進(jìn)一步探究 Actor 模型是如何受到幫助的，作者將數(shù)據(jù)集按照 Actor 模型初始的正確率分為了 5 個(gè)難度，并且比較在不同難度下，有無(wú)反饋數(shù)據(jù)對(duì)模型回答正確率的影響。

▲以 Actor 模型正確率（采樣 100 次）作為難度分級(jí)的指標(biāo)，使用 Critique 模型的反饋數(shù)據(jù)能在更高難度題目下獲得更大的幫助。研究發(fā)現(xiàn) Actor 模型在幾乎各個(gè)難度下，正確率均有所提升。而且在難度級(jí)別較高的題目中，Actor 模型均收到了更大的幫助，表現(xiàn)為正確率的顯著提升。這說(shuō)明，使用 Critique 模型幫助 Actor 模型改進(jìn)其所不會(huì)的難題，可以是解決自我提升長(zhǎng)尾分布難題的新方法。 2. 在 Critique 模型幫助下增加推理計(jì)算投入的性能

▲有無(wú)反饋數(shù)據(jù)對(duì)測(cè)試時(shí) Majority voting 性能的影響，@3K 代表采樣數(shù)量為橫坐標(biāo)的三倍，以控制采樣消耗相同。

研究人員進(jìn)一步探究 Critique 模型能否在測(cè)試時(shí)提高 Actor 模型性能。他們以并行 Majority voting 的結(jié)果作為測(cè)試指標(biāo)，發(fā)現(xiàn)即使在控制了相同的采樣消耗的情況下，擁有反饋數(shù)據(jù)依舊能夠顯著超過(guò)沒(méi)有反饋數(shù)據(jù)的 Actor 模型。這說(shuō)明，加入 Critique 模型可以作為實(shí)現(xiàn) Test-time Scaling 的新方法之一。

Critique模型如何幫助Actor模型探索與學(xué)習(xí)？基于以上在 Test-time 的發(fā)現(xiàn)，研究人員將測(cè)試階段所展現(xiàn)出來(lái)的優(yōu)勢(shì)用于訓(xùn)練階段（Training-time）的探索與學(xué)習(xí)（Exploration & Learning），進(jìn)一步探究 Critique 模型能否幫助 Actor 模型在訓(xùn)練時(shí)進(jìn)行自我優(yōu)化。為此，他們提出了一個(gè)有難度感知的雙模型協(xié)作優(yōu)化架構(gòu)Critique-in-the-loop Self-Improvement，用于獲得更高質(zhì)量、多樣化的數(shù)據(jù)，并緩解自我優(yōu)化采樣時(shí)的長(zhǎng)尾難題。 Critique-in-the-loop Self-Improvement：有難度感知的雙模型協(xié)作優(yōu)化架構(gòu)

▲Critique-in-the-loop Self-Improvement算法偽代碼研究人員提出了一種雙模型協(xié)作優(yōu)化架構(gòu)。在第一次采樣時(shí)，Actor 模型會(huì)在訓(xùn)練集上重復(fù)多次采樣。針對(duì)錯(cuò)誤數(shù)據(jù)，研究人員使用 Critique 模型輔助 Actor 模型進(jìn)行多次自我修正，從而達(dá)到了難度感知的目的。每一輪迭代時(shí)，Actor 模型總會(huì)學(xué)習(xí)正確的數(shù)據(jù)，從而實(shí)現(xiàn)自我提升。

實(shí)驗(yàn)探究：Critique模型在訓(xùn)練時(shí)對(duì)模型性能的影響

1. Critique-in-the-loop 能夠有效幫助模型自我提升

▲相比于在訓(xùn)練階段只使用 Actor 模型進(jìn)行采樣（Vanilla SI）, 使用 Critique 模型后，Actor 模型在測(cè)試集正確率上均有顯著提升。圖中 N 代表采樣次數(shù)。實(shí)驗(yàn)發(fā)現(xiàn)，Vanilla Self-Improve 盡管能在一定程度上提升模型的性能，然而其很快達(dá)到瓶頸，甚至開(kāi)始出現(xiàn)性能的下滑。但是 Critique-in-the-loop 能夠顯著改善這一情況，既使得模型的自我提升較為穩(wěn)定，又能夠在多個(gè)采樣次數(shù)下獲得相當(dāng)顯著的性能提升。研究人員認(rèn)為，這與長(zhǎng)尾分布難題的緩解密不可分。 2. Critique-in-the-loop 能夠緩解長(zhǎng)尾分布難題為了進(jìn)一步證實(shí)長(zhǎng)尾分布難題獲得了緩解，研究人員進(jìn)一步探究在訓(xùn)練時(shí)，不同難度問(wèn)題的訓(xùn)練數(shù)據(jù)占總體數(shù)據(jù)集的比例。

▲圖1. 相比于 Vanilla SI、Critique-in-the-loop 在不同難度問(wèn)題中采樣出的訓(xùn)練數(shù)據(jù)比例變化。圖 2、圖 3：兩者在測(cè)試集中，不同難度問(wèn)題的性能表現(xiàn)比較。實(shí)驗(yàn)發(fā)現(xiàn)，Critique-in-the-loop 能夠更有效地平衡不同難度問(wèn)題占總體數(shù)據(jù)集的占比。值得注意的是，難度較高的問(wèn)題所占的比例出現(xiàn)顯著上升，證實(shí)了長(zhǎng)尾分布難題得到緩解。與此同時(shí)，研究團(tuán)隊(duì)還分析了測(cè)試集上不同難度問(wèn)題的性能表現(xiàn)。實(shí)驗(yàn)結(jié)論也說(shuō)明，在較難問(wèn)題上模型展現(xiàn)出性能的顯著提高。 3. 在測(cè)試時(shí)使用 Critique 模型，Critique-in-the-loop 能夠帶來(lái)更大的提升

▲不同訓(xùn)練策略與測(cè)試策略的性能性能。訓(xùn)練時(shí)，使用了直接微調(diào)推理與有反饋的糾正數(shù)據(jù)，直接微調(diào)推理與自我糾正數(shù)據(jù)，無(wú) Critique 模型的自我提升以及有 Critique 模型的自我提升四種方式。測(cè)試時(shí)，比較了是否使用 Critique 模型兩種方式。鑒于作者之前所提到的訓(xùn)練與測(cè)試時(shí) Critique 模型的好處，作者進(jìn)一步分析了兩者結(jié)合后的效果。實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)使用 Critique-in-the-loop 時(shí)，在測(cè)試階段使用 Critique 模型帶來(lái)的性能提升較小，說(shuō)明 Critique 模型所帶來(lái)的性能提升已經(jīng)被融入到了推理模型中。盡管如此，相比于其他訓(xùn)練方案，其性能依舊有顯著優(yōu)勢(shì)。

深入分析Critique Models

實(shí)驗(yàn)探究：Critique模型擴(kuò)展性（Scaling Properties）

為了探究 Critique 模型是否對(duì)多種模型——尤其是那些模型大小與性能高于自己的 Actor 模型——做到相類似的幫助，作者固定 Critique 模型為 3B 大小的 Qwen-2.5 模型，并使用不同模型大小的 Qwen-2.5 系列模型（1.5B、3B、7B、14B）作為 Actor 模型進(jìn)行了實(shí)驗(yàn)。

▲不同模型大小的 Actor 模型在測(cè)試賽上正確率表現(xiàn)。其中 w/o critic 代表不使用 Critique 模型，w/orcale 代表僅對(duì)原始回答錯(cuò)誤的數(shù)據(jù)進(jìn)行修正。實(shí)驗(yàn)結(jié)論發(fā)現(xiàn)，無(wú)論何種模型大小， Critique 模型的存在均能顯著提升模型測(cè)試性能。然而，在較為簡(jiǎn)單的數(shù)據(jù)集 GSM8K 上，更大的模型獲得的幫助不如較小的模型；但在較為困難的數(shù)據(jù)集 MATH 上，性能的提升依舊顯著。

實(shí)驗(yàn)探究：Critique模型對(duì)Majority Voting性能的影響

作者進(jìn)一步探究Critique 模型對(duì) Majority Voting 性能的影響，探究當(dāng)采樣次數(shù)更大時(shí)的表現(xiàn)。

▲對(duì) Actor 模型采樣 1000 次后的性能圖，問(wèn)題按照通過(guò)率由低到高進(jìn)行排序，其中紅色部分表示該問(wèn)題在 Majority Voting 下依舊做錯(cuò)。研究發(fā)現(xiàn)，擁有 Critique 模型的情況下，Actor 模型在整體上提高了問(wèn)題的正確率，從而帶來(lái)了 Majority Voting 的穩(wěn)定性。另外，作者們還發(fā)現(xiàn)，不使用 Critique 模型時(shí)，盡管 Actor 模型會(huì)給出占比較多的正確答案，然而非正確答案卻擁有更高的占比。而擁有 Critique 模型時(shí)， Actor 模型最終修改給出的答案更為一致，使得正確答案的占比會(huì)超過(guò)某些出現(xiàn)頻率較高的錯(cuò)誤答案，幫助模型能夠更好的選出正確答案。

實(shí)驗(yàn)探究：不同計(jì)算投入策略對(duì)性能的影響

作者繼續(xù)探討了多種計(jì)算提升消耗策略下 Actor 模型的表現(xiàn)。實(shí)驗(yàn)使用了并行采樣與線性采樣兩種方式，并且比較了 Pass@k、Majority Voting 以及 Sequential Final（僅選取最終答案）三種方式。

▲圖 1 及圖 2：線性與并行采樣策略下，模型的 Pass@k 表現(xiàn)；圖 3 及圖 4：不同采樣策略下模型的 Majority voting 表現(xiàn)。橫坐標(biāo)表示采樣樣本的數(shù)量實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，在 Pass@k 的設(shè)定下，線性采樣的表現(xiàn)略低于并行采樣，這可能源于并行采樣會(huì)帶來(lái)更多樣化的答案選擇。而在模型需要給出答案的設(shè)定下，僅選取最終答案并不如 Majority voting 的表現(xiàn)要好，強(qiáng)調(diào)了內(nèi)在一致方式的重要性。隨著采樣次數(shù)的提高，線性采樣的性能超過(guò)了并行采樣的方式，這有可能源于當(dāng)采樣次數(shù)足夠大時(shí)，并行采樣帶來(lái)的多樣性答案可能有害于最終的性能表現(xiàn)，而線性采樣通過(guò)反復(fù)修改一個(gè)回答，使得結(jié)果更加穩(wěn)定。

A Step Further—基于Critique數(shù)據(jù)構(gòu)建Self-talk模型幫助自我糾錯(cuò)最后，受到 OpenAI o1 模型的推理啟發(fā)，研究人員進(jìn)一步探究Self-talk形式幫助模型自我糾錯(cuò)的可能性。Self-talk 形式幫助模型在每一個(gè)推理步驟后立刻開(kāi)始反思與改進(jìn)，而不必等整個(gè)軌跡生成完之后再進(jìn)行改進(jìn)。

▲Self-talk 形式數(shù)據(jù)構(gòu)建示意圖圖中，第一個(gè)階段用于「構(gòu)建初始反饋數(shù)據(jù)」。研究人員使用AutoMathCritique框架構(gòu)建步驟級(jí)別的反饋數(shù)據(jù)，并加入到推理路徑中，形成初始的思維鏈。第二個(gè)階段用于「循環(huán)修正錯(cuò)誤思考鏈」。第一階段中的數(shù)據(jù)存在著錯(cuò)誤的推理路徑，研究人員使用 Critique 模型幫助 Actor 模型生成新的推理路徑，并將反饋數(shù)據(jù)同樣加入到推理路徑中逐步生成思維鏈，直到整個(gè)推理路徑?jīng)]有錯(cuò)誤為止。第三個(gè)階段用于「優(yōu)化思考鏈為 Self-talk 形式」。前兩階段得到的思考鏈較為生硬，因此研究人員進(jìn)一步使用模型優(yōu)化思維鏈，使其變?yōu)樽匀坏?Self-talk 形式，并保證了最終答案的正確性。

▲Self-talk 形式數(shù)據(jù)示例使用如上構(gòu)建的數(shù)據(jù)，研究人員訓(xùn)練了一個(gè) Self-talk 模型。初步實(shí)驗(yàn)發(fā)現(xiàn)，相比于軌跡級(jí)別的自我改進(jìn)，Self-talk 格式能夠顯著改善模型性能。盡管表現(xiàn)不如所提出的雙模型合作架構(gòu)，然而這也揭示了其潛能所在。

▲在 MATH 數(shù)據(jù)集上三種方法的各種指標(biāo)，分別使用軌跡層面的自我改進(jìn)，步驟層面的自我對(duì)話改進(jìn)以及雙模型協(xié)作架構(gòu)。實(shí)驗(yàn)比較了正確率、Pass@k 和 MV@k 三個(gè)指標(biāo)。

總結(jié)

本文的主要貢獻(xiàn)包括：

提出自動(dòng)化構(gòu)造步驟級(jí)別 Critique 的框架AutoMathCritique；

探究 Critique 模型對(duì)于 Actor 模型在推理時(shí)的幫助；

提出擁有難度感知方式的自我改進(jìn)框架Critique-in-the-loop Self-Improvement，緩解長(zhǎng)尾難題；

探究測(cè)試時(shí)的各種 Scaling 策略，包括模型大小，采樣策略與采樣數(shù)量等方面。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

框架

框架

+關(guān)注

關(guān)注
0

文章
404

瀏覽量
18425
模型

模型

+關(guān)注

關(guān)注
1

文章
3752

瀏覽量
52111

原文標(biāo)題：Scaling Law撞墻？復(fù)旦提出大模型推理新思路：Two-Player架構(gòu)打破自我反思瓶頸

文章出處：【微信號(hào)：tyutcsplab，微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

復(fù)旦提出大模型推理新思路：Two-Player架構(gòu)打破自我反思瓶頸

評(píng)論