老司机福利免费看,69视频69亚洲免av

這篇文章《(How) Do Reasoning Models Reason?》對當前大型推理模型（LRM）進行了深刻的剖析，超越了表面的性能宣傳，直指其技術本質和核心局限。以下是基于原文的詳細技術原理、關鍵過程與核心見解拆解。

一、核心論點與總覽

LRM（如 o1, R1）的“推理”能力提升，并非源于模型學會了人類式的邏輯推理，而是通過兩類主要技術手段，優(yōu)化了生成過程，使其在輸出最終答案前，模仿并生成看似合理的推導過程。其本質是在“生成-測試”框架中，將外部驗證信號逐步“編譯”進生成模型參數(shù)中。

二、兩大技術路徑的詳細原理與過程

1. 測試時推理（Test-time Inference）

Figure 1:Test-time scaling approaches for teasing out reasoning

核心思想：在推理（回答用戶問題）時，讓模型做比“直接生成答案”更多的工作，相當于在測試時進行可擴展的、問題自適應的計算。

關鍵過程：

（1）生成：使用LLM為同一個問題生成多個候選答案或解軌跡。

（2）驗證/選擇：通過某種機制篩選出最優(yōu)答案。

2.1）簡單選擇：如“自我一致性”，選擇出現(xiàn)頻率最高的答案（假設模型誤差是隨機的）。

2.2）驗證驅動：引入“驗證器”對候選答案進行檢驗。這是性能提升的關鍵。

驗證器類型：

(a)外部可靠驗證器：使用傳統(tǒng)求解器或可證明正確的程序（如數(shù)學計算器、規(guī)劃器）。這是最可靠的方式，能提供正確性保證（如LLM-Modulo框架）。

(b)學習型驗證器：訓練另一個模型來判斷答案正確性（問題：驗證器也可能出錯）。

(c)LLM自我驗證：讓LLM自我評估（已被證明存在問題，容易產(chǎn)生過度自信）。

迭代改進：如果驗證失敗，可以將錯誤信息反饋給生成器，讓其重新生成，形成“生成-測試-修正”循環(huán)。

核心見解：這本質上是將搜索或規(guī)劃過程外包給了測試時的計算循環(huán)，而非內(nèi)化于模型權重中。

根本問題：成本爆炸。計算成本不再與輸出長度成正比，而是與問題的內(nèi)在計算復雜度成正比，顛覆了LLM按token計費的傳統(tǒng)商業(yè)模式。

2. 訓練后方法（基于推導軌跡，Post-Training on Derivational Traces）

Figure 2:Post-training Approaches for teasing out reasoning

核心思想：在標準預訓練后，使用包含“解題步驟”（推導軌跡）的數(shù)據(jù)對模型進行進一步訓練，教會模型在輸出答案前，先輸出類似的中間步驟。

關鍵過程：

(1)軌跡數(shù)據(jù)獲?。ㄗ畲箅y點）：

1)人工標注：高質量但代價極高（如GSM8K數(shù)據(jù)集）。

2)合成生成：使用傳統(tǒng)求解器（如A*搜索）自動生成問題解及其完整的搜索軌跡（如SearchFormer）。軌跡準確但領域受限。

3)LLM生成后過濾：讓LLM自己生成步驟（利用其預訓練中已有的“步驟示范”數(shù)據(jù)），然后通過驗證器過濾出最終答案正確的軌跡（無論中間步驟是否真正合理）。這是當前主流方法。

模型訓練：

(1)監(jiān)督微調(diào)：直接在（問題，推導軌跡，答案）數(shù)據(jù)上微調(diào)。

(2)強化學習：更先進的方法（如DeepSeek R1）。

2.1)過程：對于可驗證的問題，讓模型生成多條帶“痕跡”的答案。

2.2)獎勵：僅根據(jù)最終答案的正確與否給予獎勵/懲罰。

2.3)效果：模型參數(shù)被調(diào)整，使得能導致正確答案的輸出模式（包括其前面的“痕跡”）概率增大。

2.4)知識蒸餾：將經(jīng)過RL訓練的“教師模型”的輸出作為數(shù)據(jù)，去訓練一個更小的“學生模型”，可以免去昂貴的RL過程。

(3)核心見解：

痕跡的語義虛假性：訓練目標只關心最終答案正確。模型學會的是一種能“討好”獎勵信號的輸出格式（先輸出一堆token，然后輸出答案），這些中間token不一定構成邏輯推理，而可能是任何有助于提高最終答案正確率的模式。

本質是編譯驗證信號：該過程可以理解為將外部驗證器（在訓練時使用）的“測試”能力，部分地編譯到了生成模型的“生成”傾向中。即“智能是將‘生成-測試’中的測試部分轉移到生成部分”（明斯基）。

三、對LRM的批判性見解（打破誤解）

1. 中間token不是“思考痕跡”

模型生成的“讓我們一步步思考…”等文本，是對預訓練數(shù)據(jù)中人類解題風格的模仿，而非內(nèi)部計算過程的反映。作者戲稱為“大型喃喃自語模型”。

證據(jù)：即使在專門訓練輸出求解器軌跡的模型（如SearchFormer）中，其輸出的“步驟”也常包含違反基本算法規(guī)則的操作（如從開放列表中刪除不存在的節(jié)點），但這些錯誤軌跡有時仍能“蒙對”最終答案。這說明軌跡的正確性并非必要。

2. 性能提升的來源是“提示增強”，而非獲得推理能力：

Figure 4: Augmenting a task prompt with additional tokens often seems to improve the accuracy of LLM completion even if the tokens don’t have human-parseable meaning.

給LLM一個更長的、特定格式的提示詞（如包含“步驟”），即使這些附加token對人類毫無意義，也能提高其答案準確性。

LRM的訓練后方法，實質上是將這種有效的“提示增強”動態(tài)地、內(nèi)化地置于每次生成的開頭。模型學會了自己為自己“鋪墊”一段有利于解題的上下文。

3. 泛化能力脆弱

在簡單規(guī)劃任務（Blocksworld）上表現(xiàn)尚可，但一旦對對象和動作進行重命名（Mystery Blocksworld），性能就大幅下降。這表明模型嚴重依賴表面詞匯的匹配，而非抽象的邏輯結構理解。

面對不可解問題時，LRM會自信地生成虛假計劃并配上看似合理的解釋，存在“ gas lighting ”（誤導）用戶的風險。

4. 與LLMs沒有根本性架構區(qū)別

僅經(jīng)過訓練后的LRMs，在推理時仍然是接收提示，自回歸地生成token。其架構與普通LLM完全相同。

唯一改變的是模型輸出token序列的概率分布：它現(xiàn)在更傾向于先生成一段“類推導痕跡”的token，再生成答案。沒有自適應計算，生成長度在訓練時已大致確定。

四、核心流程圖解：LRMs的工作原理與本質

以下圖表概括了上述所有關鍵過程和見解：

五、未來方向與建議

去擬人化：放棄讓中間token像人類“思考”，轉而探索高效、壓縮、符號化的中間表示，純粹以提升最終準確性為目標進行優(yōu)化（類似AlphaZero學習價值函數(shù)）。

混合系統(tǒng)定位：LRMs不應被視為獨立的“推理者”，而應作為增強型的提議生成器，集成在如LLM-Modulo的框架中，由外部驗證器提供可靠性保證。

重新審視評估：需要超越最終答案準確率的基準測試，設計能測評推理過程穩(wěn)健性、泛化性和成本效率的評估體系。

總而言之，本文揭示了LRMs“推理”能力背后的工程本質，對其過度擬人化的解讀提出了有力批判，并為更穩(wěn)健、可靠的AI系統(tǒng)設計指明了方向。

本文轉自：小猴智能，由小猴翻譯校對

源文：(How) Do Reasoning Models Reason?2025.4.14

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

測試

測試

+關注

關注
9

文章
6192

瀏覽量
131336
LLM

LLM

+關注

關注
1

文章
346

瀏覽量
1328

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

LLM推理模型是如何推理的？

評論

搜索歷史

LLM推理模型是如何推理的？

評論

LLM推理模型是如何推理的？