91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

LLM推理模型是如何推理的?

穎脈Imgtec ? 2026-01-19 15:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這篇文章《(How) Do Reasoning Models Reason?》對當前大型推理模型(LRM)進行了深刻的剖析,超越了表面的性能宣傳,直指其技術本質和核心局限。以下是基于原文的詳細技術原理、關鍵過程與核心見解拆解。


一、核心論點與總覽

LRM(如 o1, R1)的“推理”能力提升,并非源于模型學會了人類式的邏輯推理,而是通過兩類主要技術手段,優(yōu)化了生成過程,使其在輸出最終答案前,模仿并生成看似合理的推導過程。其本質是在“生成-測試”框架中,將外部驗證信號逐步“編譯”進生成模型參數(shù)中。


二、兩大技術路徑的詳細原理與過程

1. 測試時推理(Test-time Inference)

1ec78a80-f509-11f0-8ce9-92fbcf53809c.png

Figure 1:Test-time scaling approaches for teasing out reasoning

核心思想:在推理(回答用戶問題)時,讓模型做比“直接生成答案”更多的工作,相當于在測試時進行可擴展的、問題自適應的計算。

關鍵過程:

(1)生成:使用LLM為同一個問題生成多個候選答案或解軌跡。

(2)驗證/選擇:通過某種機制篩選出最優(yōu)答案。

2.1)簡單選擇:如“自我一致性”,選擇出現(xiàn)頻率最高的答案(假設模型誤差是隨機的)。

2.2)驗證驅動:引入“驗證器”對候選答案進行檢驗。這是性能提升的關鍵。

驗證器類型:

(a)外部可靠驗證器:使用傳統(tǒng)求解器或可證明正確的程序(如數(shù)學計算器、規(guī)劃器)。這是最可靠的方式,能提供正確性保證(如LLM-Modulo框架)。

(b)學習型驗證器:訓練另一個模型來判斷答案正確性(問題:驗證器也可能出錯)。

(c)LLM自我驗證:讓LLM自我評估(已被證明存在問題,容易產(chǎn)生過度自信)。

迭代改進:如果驗證失敗,可以將錯誤信息反饋給生成器,讓其重新生成,形成“生成-測試-修正”循環(huán)。

核心見解: 這本質上是將搜索或規(guī)劃過程外包給了測試時的計算循環(huán),而非內(nèi)化于模型權重中。

根本問題:成本爆炸。計算成本不再與輸出長度成正比,而是與問題的內(nèi)在計算復雜度成正比,顛覆了LLM按token計費的傳統(tǒng)商業(yè)模式。

2. 訓練后方法(基于推導軌跡,Post-Training on Derivational Traces)

1ef1fd2e-f509-11f0-8ce9-92fbcf53809c.png

Figure 2:Post-training Approaches for teasing out reasoning

核心思想:在標準預訓練后,使用包含“解題步驟”(推導軌跡)的數(shù)據(jù)對模型進行進一步訓練,教會模型在輸出答案前,先輸出類似的中間步驟。

關鍵過程:

(1)軌跡數(shù)據(jù)獲?。ㄗ畲箅y點):

1)人工標注:高質量但代價極高(如GSM8K數(shù)據(jù)集)。

2)合成生成:使用傳統(tǒng)求解器(如A*搜索)自動生成問題解及其完整的搜索軌跡(如SearchFormer)。軌跡準確但領域受限。

3)LLM生成后過濾:讓LLM自己生成步驟(利用其預訓練中已有的“步驟示范”數(shù)據(jù)),然后通過驗證器過濾出最終答案正確的軌跡(無論中間步驟是否真正合理)。這是當前主流方法。

模型訓練:

(1)監(jiān)督微調(diào):直接在(問題,推導軌跡,答案)數(shù)據(jù)上微調(diào)。

(2)強化學習:更先進的方法(如DeepSeek R1)。

2.1)過程:對于可驗證的問題,讓模型生成多條帶“痕跡”的答案。

2.2)獎勵:僅根據(jù)最終答案的正確與否給予獎勵/懲罰。

2.3)效果:模型參數(shù)被調(diào)整,使得能導致正確答案的輸出模式(包括其前面的“痕跡”)概率增大。

2.4)知識蒸餾:將經(jīng)過RL訓練的“教師模型”的輸出作為數(shù)據(jù),去訓練一個更小的“學生模型”,可以免去昂貴的RL過程。

(3)核心見解:

痕跡的語義虛假性:訓練目標只關心最終答案正確。模型學會的是一種能“討好”獎勵信號的輸出格式(先輸出一堆token,然后輸出答案),這些中間token不一定構成邏輯推理,而可能是任何有助于提高最終答案正確率的模式。

本質是編譯驗證信號:該過程可以理解為將外部驗證器(在訓練時使用)的“測試”能力,部分地編譯到了生成模型的“生成”傾向中。即“智能是將‘生成-測試’中的測試部分轉移到生成部分”(明斯基)。


三、對LRM的批判性見解(打破誤解)

1. 中間token不是“思考痕跡”

模型生成的“讓我們一步步思考…”等文本,是對預訓練數(shù)據(jù)中人類解題風格的模仿,而非內(nèi)部計算過程的反映。作者戲稱為“大型喃喃自語模型”。

證據(jù):即使在專門訓練輸出求解器軌跡的模型(如SearchFormer)中,其輸出的“步驟”也常包含違反基本算法規(guī)則的操作(如從開放列表中刪除不存在的節(jié)點),但這些錯誤軌跡有時仍能“蒙對”最終答案。這說明軌跡的正確性并非必要。

2. 性能提升的來源是“提示增強”,而非獲得推理能力:

1f137fda-f509-11f0-8ce9-92fbcf53809c.png

Figure 4: Augmenting a task prompt with additional tokens often seems to improve the accuracy of LLM completion even if the tokens don’t have human-parseable meaning.

給LLM一個更長的、特定格式的提示詞(如包含“步驟”),即使這些附加token對人類毫無意義,也能提高其答案準確性。

LRM的訓練后方法,實質上是將這種有效的“提示增強”動態(tài)地、內(nèi)化地置于每次生成的開頭。模型學會了自己為自己“鋪墊”一段有利于解題的上下文。

3. 泛化能力脆弱

在簡單規(guī)劃任務(Blocksworld)上表現(xiàn)尚可,但一旦對對象和動作進行重命名(Mystery Blocksworld),性能就大幅下降。這表明模型嚴重依賴表面詞匯的匹配,而非抽象的邏輯結構理解。

面對不可解問題時,LRM會自信地生成虛假計劃并配上看似合理的解釋,存在“ gas lighting ”(誤導)用戶的風險。

4. 與LLMs沒有根本性架構區(qū)別

僅經(jīng)過訓練后的LRMs,在推理時仍然是接收提示,自回歸地生成token。其架構與普通LLM完全相同。

唯一改變的是模型輸出token序列的概率分布:它現(xiàn)在更傾向于先生成一段“類推導痕跡”的token,再生成答案。沒有自適應計算,生成長度在訓練時已大致確定。


四、核心流程圖解:LRMs的工作原理與本質

以下圖表概括了上述所有關鍵過程和見解:

1f2e493c-f509-11f0-8ce9-92fbcf53809c.png


五、未來方向與建議

去擬人化:放棄讓中間token像人類“思考”,轉而探索高效、壓縮、符號化的中間表示,純粹以提升最終準確性為目標進行優(yōu)化(類似AlphaZero學習價值函數(shù))。

混合系統(tǒng)定位:LRMs不應被視為獨立的“推理者”,而應作為增強型的提議生成器,集成在如LLM-Modulo的框架中,由外部驗證器提供可靠性保證。

重新審視評估:需要超越最終答案準確率的基準測試,設計能測評推理過程穩(wěn)健性、泛化性和成本效率的評估體系。

總而言之,本文揭示了LRMs“推理”能力背后的工程本質,對其過度擬人化的解讀提出了有力批判,并為更穩(wěn)健、可靠的AI系統(tǒng)設計指明了方向。

本文轉自:小猴智能,由小猴翻譯校對

源文:(How) Do Reasoning Models Reason?2025.4.14

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 測試
    +關注

    關注

    9

    文章

    6192

    瀏覽量

    131336
  • LLM
    LLM
    +關注

    關注

    1

    文章

    346

    瀏覽量

    1328
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    商湯科技正式開源多模態(tài)自主推理模型SenseNova-MARS

    今日,商湯正式開源多模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在多模態(tài)搜索與推理的核心基準測試中以 69.74 分超越Gemini-3-Pro(69.06 分)、GPT-5.2(67.64 分)。
    的頭像 發(fā)表于 01-30 10:13 ?508次閱讀
    商湯科技正式開源多模態(tài)自主<b class='flag-5'>推理模型</b>SenseNova-MARS

    阿里巴巴發(fā)布通義千問旗艦推理模型Qwen3-Max-Thinking

    今天,我們正式發(fā)布千問旗艦推理模型Qwen3-Max-Thinking,創(chuàng)下數(shù)項權威評測全球新紀錄。
    的頭像 發(fā)表于 01-27 15:47 ?365次閱讀
    阿里巴巴發(fā)布通義千問旗艦<b class='flag-5'>推理模型</b>Qwen3-Max-Thinking

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實
    的頭像 發(fā)表于 10-21 11:04 ?1164次閱讀

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1258次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1772次閱讀
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理模型</b>發(fā)布

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機上的原生適配與優(yōu)化,用戶可一鍵啟用這顆“小而強悍”的新引擎,在本地享受企業(yè)級 AI 生產(chǎn)力!
    的頭像 發(fā)表于 08-14 11:34 ?1400次閱讀

    利用NVIDIA推理模型構建AI智能體

    開放式推理模型能夠更快、更廣泛地進行思考,為客戶服務、網(wǎng)絡安全、制造、物流和機器人等領域的 AI 智能體生成更明智的結果。
    的頭像 發(fā)表于 08-13 14:32 ?1580次閱讀
    利用NVIDIA<b class='flag-5'>推理模型</b>構建AI智能體

    請問如何在RK3588上使用npu,用onnx模型推理

    請問如何在瑞芯微 RK3588上使用npu,用onnx模型推理。官網(wǎng)上介紹說要把ONNX模型轉換成RKNN模型。但是我并不想這么干,請問有什么辦法嗎?
    發(fā)表于 08-09 00:51

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應用原型驗證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2177次閱讀

    模型推理顯存和計算量估計方法研究

    隨著人工智能技術的飛速發(fā)展,深度學習大模型在各個領域得到了廣泛應用。然而,大模型推理過程對顯存和計算資源的需求較高,給實際應用帶來了挑戰(zhàn)。為了解決這一問題,本文將探討大模型
    發(fā)表于 07-03 19:43

    詳解 LLM 推理模型的現(xiàn)狀

    領域的最新研究進展,特別是自DeepSeekR1發(fā)布后興起的推理時間計算擴展相關內(nèi)容。在LLM中實施和改進推理簡單來說,基于LLM推理模型
    的頭像 發(fā)表于 04-03 12:09 ?1610次閱讀
    詳解 <b class='flag-5'>LLM</b> <b class='flag-5'>推理模型</b>的現(xiàn)狀

    中科馭數(shù)高性能網(wǎng)卡產(chǎn)品 成就DeepSeek推理模型網(wǎng)絡底座

    2025年初,DeepSeek-V3與DeepSeek-R1推理模型的開源引爆了AI社區(qū),這兩款產(chǎn)品作為通用千億級模型與專用推理優(yōu)化模型,為全球AI技術生態(tài)帶來重大變革,不僅展示了中國
    的頭像 發(fā)表于 03-31 11:56 ?683次閱讀
    中科馭數(shù)高性能網(wǎng)卡產(chǎn)品 成就DeepSeek<b class='flag-5'>推理模型</b>網(wǎng)絡底座

    新品 | Module LLM Kit,離線大語言模型推理模塊套裝

    推理與數(shù)據(jù)交互需求。ModuleLLM是一款集成化的離線大語言模型(LLM)推理模塊,專為需要高效、智能交互的終端設備設計。Module13.2LLMMate模塊
    的頭像 發(fā)表于 03-28 18:49 ?1186次閱讀
    新品 | Module <b class='flag-5'>LLM</b> Kit,離線大語言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>模塊套裝

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展 AI 工廠中的 AI 推理模型。 作為 NVIDIA
    的頭像 發(fā)表于 03-20 15:03 ?1231次閱讀

    為什么無法在運行時C++推理中讀取OpenVINO?模型

    使用模型優(yōu)化器 2021.1 版OpenVINO?轉換模型 使用 Runtime 2022.3 版本在 C++ 推理實現(xiàn) ( core.read_model()) 中讀取模型Open
    發(fā)表于 03-05 06:17