91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

復(fù)旦提出大模型推理新思路:Two-Player架構(gòu)打破自我反思瓶頸

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 2024-12-06 11:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI 領(lǐng)域,近期的新聞焦點(diǎn)無(wú)疑是關(guān)于「Scaling Law 是否撞墻?」的辯論。這一曾經(jīng)被視作大模型發(fā)展的第一性原理,如今卻遭遇了挑戰(zhàn)。 在這樣的背景下,研究人員開(kāi)始意識(shí)到,與其單純堆砌更多的訓(xùn)練算力和數(shù)據(jù)資源,不如讓模型「花更多時(shí)間思考」。以 OpenAI 推出的 o1 模型為例,通過(guò)增加推理時(shí)間,這種方法讓模型能夠進(jìn)行反思、批評(píng)、回溯和糾正,大幅提升了推理表現(xiàn)。 但問(wèn)題在于,傳統(tǒng)的自我反思(Self-Reflection)和自我糾正(Self-Correction)方法存在明顯局限 —— 模型的表現(xiàn)往往受制于自身能力,缺乏外部信號(hào)的引導(dǎo),因此容易觸及瓶頸,止步不前。

462f869a-b04a-11ef-93f3-92fbcf53809c.png

▲單一模型在傳統(tǒng)自我糾正與自我優(yōu)化時(shí)往往難以糾正自身,而雙模型協(xié)作架構(gòu)下能夠獲得更有建設(shè)性的建議。 針對(duì)這些挑戰(zhàn),復(fù)旦 NLP 研究團(tuán)隊(duì)提出了一種全新的雙模型協(xié)作架構(gòu)(Two-Player Paradigm)。簡(jiǎn)單來(lái)說(shuō),就是讓評(píng)判模型(Critique Model)參與到行為模型(Actor Model)的推理過(guò)程中 —— 行為模型專注推理,評(píng)判模型則以步驟級(jí)別的反饋為行為模型指路。 這種設(shè)計(jì)打破了傳統(tǒng)依賴于單一模型的限制,也讓行為模型能夠在訓(xùn)練和推理階段實(shí)現(xiàn)自我改進(jìn)。更重要的是,整個(gè)框架無(wú)需依賴模型蒸餾過(guò)程(例如直接模仿 o1 的思考過(guò)程),而是通過(guò)多模型協(xié)作互動(dòng)獲得了高質(zhì)量、可靠的反饋信號(hào),最終實(shí)現(xiàn)性能隨計(jì)算投增大的不斷提升。

在這篇工作中,研究團(tuán)隊(duì)聚焦以下四個(gè)核心內(nèi)容:

如何自動(dòng)化構(gòu)建 critique 數(shù)據(jù)集,訓(xùn)練高效、可靠的評(píng)判模型(Critique Model);

使用評(píng)判模型推動(dòng)測(cè)試階段的擴(kuò)展(Test-time Scaling);

通過(guò)交互協(xié)作提升行為模型的訓(xùn)練性能(Training-time Scaling);

基于 critique 數(shù)據(jù)的 Self-talk 幫助模型自我糾錯(cuò)。

作者們提出了一個(gè)創(chuàng)新性框架——AutoMathCritique,可以自動(dòng)生成步驟級(jí)別的反饋(step-level feedback),并基于此構(gòu)建了名為 MathCritique-76k 的數(shù)據(jù)集,用于訓(xùn)練評(píng)判模型。 進(jìn)一步,研究團(tuán)隊(duì)深入探討了評(píng)判模型在測(cè)試階段助力推理性能的機(jī)制,并通過(guò)引入雙模型協(xié)作架構(gòu) Critique-in-the-Loop,有效緩解了模型探索與學(xué)習(xí)的自訓(xùn)練過(guò)程中常見(jiàn)的長(zhǎng)尾分布問(wèn)題,為復(fù)現(xiàn) OpenAI o1 深度推理表現(xiàn)開(kāi)辟了新的可能性。

論文題目:

Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision

論文鏈接:

http://arxiv.org/abs/2411.16579

項(xiàng)目主頁(yè):

https://mathcritique.github.io/

代碼鏈接:

https://github.com/WooooDyy/MathCritique

數(shù)據(jù)鏈接:

https://huggingface.co/datasets/MathCritique/MathCritique-76k

* 本工作部分實(shí)驗(yàn)基于昇騰 910 完成

AutoMathCritique—自動(dòng)化、可擴(kuò)展地構(gòu)造步驟級(jí)Critique數(shù)據(jù)為了研究 Critique 模型在架構(gòu)中的作用與性能,作者們首先訓(xùn)練了一個(gè)可靠的 Critique 模型。鑒于步驟級(jí)別反饋數(shù)據(jù)的稀缺,作者們提出了一種新的框架AutoMathCritique,用于自動(dòng)化構(gòu)造多樣性推理數(shù)據(jù),并獲得步驟級(jí)別的反饋。

466ce6f2-b04a-11ef-93f3-92fbcf53809c.png

▲ AutoMathCritique 流程:通過(guò)多種方式收集錯(cuò)誤數(shù)據(jù)與錯(cuò)誤信息,并交由標(biāo)注模型進(jìn)行步驟級(jí)別標(biāo)注。在標(biāo)注完相應(yīng)問(wèn)答反饋對(duì)后,交由 Actor 模型進(jìn)行進(jìn)一步篩選。

圖中,第一個(gè)階段「構(gòu)建錯(cuò)誤推理路徑」包含三種策略:

RG1: 直接構(gòu)建整體推理路徑,在高溫度下讓 Actor 模型進(jìn)行重復(fù)采樣,采樣出的數(shù)據(jù)只會(huì)包含最終答案的錯(cuò)誤信息;

RG2: 以某一條推理路徑為模板,在特定的推理步后逐漸提高溫度,讓 Actor 模型采樣出新的軌跡,采樣出的數(shù)據(jù)會(huì)包含最終答案的錯(cuò)誤信息與錯(cuò)誤步驟的位置信息;

RG3: 以某一條推理路徑為模板,對(duì)特定的推理步插入多樣化錯(cuò)誤內(nèi)容,讓 Actor 模型繼續(xù)采樣出完整軌跡,采樣出的數(shù)據(jù)會(huì)包含最終答案的錯(cuò)誤信息與錯(cuò)誤步驟的位置與錯(cuò)誤信息。

第二個(gè)階段「標(biāo)注步驟級(jí)別反饋」提供了詳細(xì)的反饋數(shù)據(jù):為了更好的提升反饋數(shù)據(jù)的質(zhì)量,研究人員將第一階段獲得的各類錯(cuò)誤信息交由標(biāo)注模型,并提供參考答案、錯(cuò)位定位和錯(cuò)誤類型信息作為輔助,幫助標(biāo)注模型提供步驟級(jí)別的反饋。 第三個(gè)階段「精篩反饋」篩選出更加高質(zhì)量的數(shù)據(jù):為了進(jìn)一步篩選出能夠更好幫助 Actor 模型的數(shù)據(jù),研究人員將錯(cuò)誤推理路徑與反饋數(shù)據(jù)一起輸入給 Actor 模型,根據(jù)其修改后答案的正確率決定是否保留。

4681aa2e-b04a-11ef-93f3-92fbcf53809c.png

▲AutoMathCritique收集到的信息示例 通過(guò)如上方案構(gòu)建的數(shù)據(jù)既包含模型本身所可能犯下的錯(cuò)誤,又構(gòu)建了域外錯(cuò)誤,使 Critique 模型能夠?qū)W習(xí)大批量、多樣化錯(cuò)誤數(shù)據(jù)。而步驟級(jí)別的反饋數(shù)據(jù)使得 Actor 模型能夠更好的定位自己所犯下的錯(cuò)誤,進(jìn)而提升修改的質(zhì)量。 使用如上框架,研究團(tuán)隊(duì)構(gòu)建了一個(gè)擁有 76k 數(shù)據(jù)量的數(shù)據(jù)集MathCritique-76k,其中既包含了正確推理軌跡又包含了自動(dòng)化合成的錯(cuò)誤軌跡,并且篩選了優(yōu)質(zhì)的步驟級(jí)別反饋數(shù)據(jù)用于之后的訓(xùn)練。

46b320c2-b04a-11ef-93f3-92fbcf53809c.png

▲MathCritique-76k 的數(shù)據(jù)構(gòu)成

Critique模型如何幫助Actor模型提高測(cè)試性能?

實(shí)驗(yàn)探究:Critique模型在測(cè)試時(shí)對(duì)Actor模型的幫助

基于如上構(gòu)建的數(shù)據(jù)集,作者以 Llama3-Instruct 系列為基座模型,微調(diào)了一個(gè)專門(mén)用于提供步驟級(jí)別反饋的 Critique 模型。其選取了常用的數(shù)學(xué)推理數(shù)據(jù)集 GSM8K 與 MATH 為測(cè)試對(duì)象,進(jìn)行了多種實(shí)驗(yàn)。 1. Critique 模型對(duì)錯(cuò)誤的識(shí)別率與對(duì) Actor 模型的幫助

46de9482-b04a-11ef-93f3-92fbcf53809c.png

▲ 不同 Critique 模型的推理軌跡正誤判斷能力與對(duì) Actor 模型的幫助,Acc. 代表 Actor 模型在不同 Critique 模型的幫助下能夠達(dá)到的正確率。

作者選取了兩個(gè)微調(diào)后的模型與 SOTA 模型作為研究對(duì)象,發(fā)現(xiàn) Critique 模型能夠極為有效地識(shí)別出推理軌跡的正確與否,并且其所提供的步驟級(jí)別反饋能夠被 Actor 模型所用,使得 Actor 模型能夠顯著改進(jìn)自己的錯(cuò)誤,以達(dá)到更高的正確率。 為了更進(jìn)一步探究 Actor 模型是如何受到幫助的,作者將數(shù)據(jù)集按照 Actor 模型初始的正確率分為了 5 個(gè)難度,并且比較在不同難度下,有無(wú)反饋數(shù)據(jù)對(duì)模型回答正確率的影響。

46faff46-b04a-11ef-93f3-92fbcf53809c.png

▲以 Actor 模型正確率(采樣 100 次)作為難度分級(jí)的指標(biāo),使用 Critique 模型的反饋數(shù)據(jù)能在更高難度題目下獲得更大的幫助。 研究發(fā)現(xiàn) Actor 模型在幾乎各個(gè)難度下,正確率均有所提升。而且在難度級(jí)別較高的題目中,Actor 模型均收到了更大的幫助,表現(xiàn)為正確率的顯著提升。這說(shuō)明,使用 Critique 模型幫助 Actor 模型改進(jìn)其所不會(huì)的難題,可以是解決自我提升長(zhǎng)尾分布難題的新方法。 2. 在 Critique 模型幫助下增加推理計(jì)算投入的性能

47138bc4-b04a-11ef-93f3-92fbcf53809c.png

▲有無(wú)反饋數(shù)據(jù)對(duì)測(cè)試時(shí) Majority voting 性能的影響,@3K 代表采樣數(shù)量為橫坐標(biāo)的三倍,以控制采樣消耗相同。

研究人員進(jìn)一步探究 Critique 模型能否在測(cè)試時(shí)提高 Actor 模型性能。他們以并行 Majority voting 的結(jié)果作為測(cè)試指標(biāo),發(fā)現(xiàn)即使在控制了相同的采樣消耗的情況下,擁有反饋數(shù)據(jù)依舊能夠顯著超過(guò)沒(méi)有反饋數(shù)據(jù)的 Actor 模型。這說(shuō)明,加入 Critique 模型可以作為實(shí)現(xiàn) Test-time Scaling 的新方法之一。

Critique模型如何幫助Actor模型探索與學(xué)習(xí)?基于以上在 Test-time 的發(fā)現(xiàn),研究人員將測(cè)試階段所展現(xiàn)出來(lái)的優(yōu)勢(shì)用于訓(xùn)練階段(Training-time)的探索與學(xué)習(xí)(Exploration & Learning),進(jìn)一步探究 Critique 模型能否幫助 Actor 模型在訓(xùn)練時(shí)進(jìn)行自我優(yōu)化。 為此,他們提出了一個(gè)有難度感知的雙模型協(xié)作優(yōu)化架構(gòu)Critique-in-the-loop Self-Improvement,用于獲得更高質(zhì)量、多樣化的數(shù)據(jù),并緩解自我優(yōu)化采樣時(shí)的長(zhǎng)尾難題。 Critique-in-the-loop Self-Improvement:有難度感知的雙模型協(xié)作優(yōu)化架構(gòu)

473bd6a6-b04a-11ef-93f3-92fbcf53809c.png

▲Critique-in-the-loop Self-Improvement算法偽代碼 研究人員提出了一種雙模型協(xié)作優(yōu)化架構(gòu)。在第一次采樣時(shí),Actor 模型會(huì)在訓(xùn)練集上重復(fù)多次采樣。針對(duì)錯(cuò)誤數(shù)據(jù),研究人員使用 Critique 模型輔助 Actor 模型進(jìn)行多次自我修正,從而達(dá)到了難度感知的目的。每一輪迭代時(shí),Actor 模型總會(huì)學(xué)習(xí)正確的數(shù)據(jù),從而實(shí)現(xiàn)自我提升。

實(shí)驗(yàn)探究:Critique模型在訓(xùn)練時(shí)對(duì)模型性能的影響

1. Critique-in-the-loop 能夠有效幫助模型自我提升

476508dc-b04a-11ef-93f3-92fbcf53809c.png

▲相比于在訓(xùn)練階段只使用 Actor 模型進(jìn)行采樣(Vanilla SI), 使用 Critique 模型后,Actor 模型在測(cè)試集正確率上均有顯著提升。圖中 N 代表采樣次數(shù)。 實(shí)驗(yàn)發(fā)現(xiàn),Vanilla Self-Improve 盡管能在一定程度上提升模型的性能,然而其很快達(dá)到瓶頸,甚至開(kāi)始出現(xiàn)性能的下滑。但是 Critique-in-the-loop 能夠顯著改善這一情況,既使得模型的自我提升較為穩(wěn)定,又能夠在多個(gè)采樣次數(shù)下獲得相當(dāng)顯著的性能提升。研究人員認(rèn)為,這與長(zhǎng)尾分布難題的緩解密不可分。 2. Critique-in-the-loop 能夠緩解長(zhǎng)尾分布難題 為了進(jìn)一步證實(shí)長(zhǎng)尾分布難題獲得了緩解,研究人員進(jìn)一步探究在訓(xùn)練時(shí),不同難度問(wèn)題的訓(xùn)練數(shù)據(jù)占總體數(shù)據(jù)集的比例。

478274da-b04a-11ef-93f3-92fbcf53809c.jpg

▲圖1. 相比于 Vanilla SI、Critique-in-the-loop 在不同難度問(wèn)題中采樣出的訓(xùn)練數(shù)據(jù)比例變化。圖 2、圖 3:兩者在測(cè)試集中,不同難度問(wèn)題的性能表現(xiàn)比較。 實(shí)驗(yàn)發(fā)現(xiàn),Critique-in-the-loop 能夠更有效地平衡不同難度問(wèn)題占總體數(shù)據(jù)集的占比。值得注意的是,難度較高的問(wèn)題所占的比例出現(xiàn)顯著上升,證實(shí)了長(zhǎng)尾分布難題得到緩解。與此同時(shí),研究團(tuán)隊(duì)還分析了測(cè)試集上不同難度問(wèn)題的性能表現(xiàn)。實(shí)驗(yàn)結(jié)論也說(shuō)明,在較難問(wèn)題上模型展現(xiàn)出性能的顯著提高。 3. 在測(cè)試時(shí)使用 Critique 模型,Critique-in-the-loop 能夠帶來(lái)更大的提升

479ed274-b04a-11ef-93f3-92fbcf53809c.png

▲不同訓(xùn)練策略與測(cè)試策略的性能性能。訓(xùn)練時(shí),使用了直接微調(diào)推理與有反饋的糾正數(shù)據(jù),直接微調(diào)推理與自我糾正數(shù)據(jù),無(wú) Critique 模型的自我提升以及有 Critique 模型的自我提升四種方式。測(cè)試時(shí),比較了是否使用 Critique 模型兩種方式。 鑒于作者之前所提到的訓(xùn)練與測(cè)試時(shí) Critique 模型的好處,作者進(jìn)一步分析了兩者結(jié)合后的效果。實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)使用 Critique-in-the-loop 時(shí),在測(cè)試階段使用 Critique 模型帶來(lái)的性能提升較小,說(shuō)明 Critique 模型所帶來(lái)的性能提升已經(jīng)被融入到了推理模型中。盡管如此,相比于其他訓(xùn)練方案,其性能依舊有顯著優(yōu)勢(shì)。

深入分析Critique Models

實(shí)驗(yàn)探究:Critique模型擴(kuò)展性(Scaling Properties)

為了探究 Critique 模型是否對(duì)多種模型——尤其是那些模型大小與性能高于自己的 Actor 模型——做到相類似的幫助,作者固定 Critique 模型為 3B 大小的 Qwen-2.5 模型,并使用不同模型大小的 Qwen-2.5 系列模型(1.5B、3B、7B、14B)作為 Actor 模型進(jìn)行了實(shí)驗(yàn)。

47c676e4-b04a-11ef-93f3-92fbcf53809c.png

▲不同模型大小的 Actor 模型在測(cè)試賽上正確率表現(xiàn)。其中 w/o critic 代表不使用 Critique 模型,w/orcale 代表僅對(duì)原始回答錯(cuò)誤的數(shù)據(jù)進(jìn)行修正。 實(shí)驗(yàn)結(jié)論發(fā)現(xiàn),無(wú)論何種模型大小, Critique 模型的存在均能顯著提升模型測(cè)試性能。然而,在較為簡(jiǎn)單的數(shù)據(jù)集 GSM8K 上,更大的模型獲得的幫助不如較小的模型;但在較為困難的數(shù)據(jù)集 MATH 上,性能的提升依舊顯著。

實(shí)驗(yàn)探究:Critique模型對(duì)Majority Voting性能的影響

作者進(jìn)一步探究Critique 模型對(duì) Majority Voting 性能的影響,探究當(dāng)采樣次數(shù)更大時(shí)的表現(xiàn)。

47e30502-b04a-11ef-93f3-92fbcf53809c.png

▲對(duì) Actor 模型采樣 1000 次后的性能圖,問(wèn)題按照通過(guò)率由低到高進(jìn)行排序,其中紅色部分表示該問(wèn)題在 Majority Voting 下依舊做錯(cuò)。 研究發(fā)現(xiàn),擁有 Critique 模型的情況下,Actor 模型在整體上提高了問(wèn)題的正確率,從而帶來(lái)了 Majority Voting 的穩(wěn)定性。另外,作者們還發(fā)現(xiàn),不使用 Critique 模型時(shí),盡管 Actor 模型會(huì)給出占比較多的正確答案,然而非正確答案卻擁有更高的占比。 而擁有 Critique 模型時(shí), Actor 模型最終修改給出的答案更為一致,使得正確答案的占比會(huì)超過(guò)某些出現(xiàn)頻率較高的錯(cuò)誤答案,幫助模型能夠更好的選出正確答案。

實(shí)驗(yàn)探究:不同計(jì)算投入策略對(duì)性能的影響

作者繼續(xù)探討了多種計(jì)算提升消耗策略下 Actor 模型的表現(xiàn)。實(shí)驗(yàn)使用了并行采樣與線性采樣兩種方式,并且比較了 Pass@k、Majority Voting 以及 Sequential Final(僅選取最終答案)三種方式。

47fb1ea8-b04a-11ef-93f3-92fbcf53809c.jpg

▲圖 1 及圖 2:線性與并行采樣策略下,模型的 Pass@k 表現(xiàn);圖 3 及圖 4:不同采樣策略下模型的 Majority voting 表現(xiàn)。橫坐標(biāo)表示采樣樣本的數(shù)量 實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),在 Pass@k 的設(shè)定下,線性采樣的表現(xiàn)略低于并行采樣,這可能源于并行采樣會(huì)帶來(lái)更多樣化的答案選擇。而在模型需要給出答案的設(shè)定下,僅選取最終答案并不如 Majority voting 的表現(xiàn)要好,強(qiáng)調(diào)了內(nèi)在一致方式的重要性。 隨著采樣次數(shù)的提高,線性采樣的性能超過(guò)了并行采樣的方式,這有可能源于當(dāng)采樣次數(shù)足夠大時(shí),并行采樣帶來(lái)的多樣性答案可能有害于最終的性能表現(xiàn),而線性采樣通過(guò)反復(fù)修改一個(gè)回答,使得結(jié)果更加穩(wěn)定。

A Step Further—基于Critique數(shù)據(jù)構(gòu)建Self-talk模型幫助自我糾錯(cuò)最后,受到 OpenAI o1 模型的推理啟發(fā),研究人員進(jìn)一步探究Self-talk形式幫助模型自我糾錯(cuò)的可能性。Self-talk 形式幫助模型在每一個(gè)推理步驟后立刻開(kāi)始反思與改進(jìn),而不必等整個(gè)軌跡生成完之后再進(jìn)行改進(jìn)。

481ff746-b04a-11ef-93f3-92fbcf53809c.png

▲Self-talk 形式數(shù)據(jù)構(gòu)建示意圖 圖中,第一個(gè)階段用于「構(gòu)建初始反饋數(shù)據(jù)」。研究人員使用AutoMathCritique框架構(gòu)建步驟級(jí)別的反饋數(shù)據(jù),并加入到推理路徑中,形成初始的思維鏈。 第二個(gè)階段用于「循環(huán)修正錯(cuò)誤思考鏈」。第一階段中的數(shù)據(jù)存在著錯(cuò)誤的推理路徑,研究人員使用 Critique 模型幫助 Actor 模型生成新的推理路徑,并將反饋數(shù)據(jù)同樣加入到推理路徑中逐步生成思維鏈,直到整個(gè)推理路徑?jīng)]有錯(cuò)誤為止。 第三個(gè)階段用于「優(yōu)化思考鏈為 Self-talk 形式」。前兩階段得到的思考鏈較為生硬,因此研究人員進(jìn)一步使用模型優(yōu)化思維鏈,使其變?yōu)樽匀坏?Self-talk 形式,并保證了最終答案的正確性。

484b4108-b04a-11ef-93f3-92fbcf53809c.png

▲Self-talk 形式數(shù)據(jù)示例 使用如上構(gòu)建的數(shù)據(jù),研究人員訓(xùn)練了一個(gè) Self-talk 模型。初步實(shí)驗(yàn)發(fā)現(xiàn),相比于軌跡級(jí)別的自我改進(jìn),Self-talk 格式能夠顯著改善模型性能。盡管表現(xiàn)不如所提出的雙模型合作架構(gòu),然而這也揭示了其潛能所在。

486d0932-b04a-11ef-93f3-92fbcf53809c.png

▲在 MATH 數(shù)據(jù)集上三種方法的各種指標(biāo),分別使用軌跡層面的自我改進(jìn),步驟層面的自我對(duì)話改進(jìn)以及雙模型協(xié)作架構(gòu)。實(shí)驗(yàn)比較了正確率、Pass@k 和 MV@k 三個(gè)指標(biāo)。

總結(jié)

本文的主要貢獻(xiàn)包括:

提出自動(dòng)化構(gòu)造步驟級(jí)別 Critique 的框架AutoMathCritique;

探究 Critique 模型對(duì)于 Actor 模型在推理時(shí)的幫助;

提出擁有難度感知方式的自我改進(jìn)框架Critique-in-the-loop Self-Improvement,緩解長(zhǎng)尾難題;

探究測(cè)試時(shí)的各種 Scaling 策略,包括模型大小,采樣策略與采樣數(shù)量等方面。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    404

    瀏覽量

    18425
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3752

    瀏覽量

    52111

原文標(biāo)題:Scaling Law撞墻?復(fù)旦提出大模型推理新思路:Two-Player架構(gòu)打破自我反思瓶頸

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模型推理服務(wù)的彈性部署與GPU調(diào)度方案

    7B 模型 FP16 推理需要約 14GB 顯存,70B 模型需要 140GB+,KV Cache 隨并發(fā)數(shù)線性增長(zhǎng),顯存碎片化導(dǎo)致實(shí)際利用率不足 60%。
    的頭像 發(fā)表于 03-03 09:29 ?110次閱讀

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對(duì)當(dāng)前大型推理模型(LRM)進(jìn)行了深刻的剖析,超越了表面的性能宣傳,直指其技術(shù)本質(zhì)和核心局限。以下是基于原文的詳細(xì)技術(shù)原理、關(guān)鍵
    的頭像 發(fā)表于 01-19 15:33 ?493次閱讀
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    算力積木+3D堆疊!GPNPU架構(gòu)創(chuàng)新,應(yīng)對(duì)AI推理需求

    落地的關(guān)鍵瓶頸。在此背景下,云天勵(lì)飛推出其第五代芯片架構(gòu)——GPNPU(General-Purpose Neural Processing Unit,通用神經(jīng)網(wǎng)絡(luò)處理單元),以一場(chǎng)底層架構(gòu)的革命,試圖重塑AI算力格局,推動(dòng)大
    的頭像 發(fā)表于 12-11 08:57 ?7842次閱讀

    華為數(shù)據(jù)存儲(chǔ)與「DaoCloud 道客」發(fā)布AI推理加速聯(lián)合解決方案

    AI產(chǎn)業(yè)已從“追求模型能力極限”轉(zhuǎn)向“追求推理體驗(yàn)最優(yōu)化”,推理體驗(yàn)決定用戶與AI的交互質(zhì)感。當(dāng)前推理應(yīng)用快速發(fā)展,Token調(diào)用量爆發(fā)式增長(zhǎng),推理
    的頭像 發(fā)表于 11-28 10:03 ?405次閱讀
    華為數(shù)據(jù)存儲(chǔ)與「DaoCloud 道客」發(fā)布AI<b class='flag-5'>推理</b>加速聯(lián)合解決方案

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊(duì)為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1278次閱讀

    如果大模型是一片星空,誰(shuí)是北斗?

    文心X1.1,破解推理模型的發(fā)展瓶頸
    的頭像 發(fā)表于 09-10 18:02 ?3560次閱讀
    如果大<b class='flag-5'>模型</b>是一片星空,誰(shuí)是北斗?

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1790次閱讀
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理模型</b>發(fā)布

    請(qǐng)問(wèn)如何在RK3588上使用npu,用onnx模型來(lái)推理

    請(qǐng)問(wèn)如何在瑞芯微 RK3588上使用npu,用onnx模型來(lái)推理。官網(wǎng)上介紹說(shuō)要把ONNX模型轉(zhuǎn)換成RKNN模型。但是我并不想這么干,請(qǐng)問(wèn)有什么辦法嗎?
    發(fā)表于 08-09 00:51

    螞蟻數(shù)科正式發(fā)布金融推理模型

    7月26日,以“智能時(shí)代,同球共濟(jì)”為主題的2025世界人工智能大會(huì)在上海開(kāi)幕;亮點(diǎn)很多。我們看到在世界人工智能大會(huì)論壇上,螞蟻數(shù)科正式發(fā)布了金融推理模型Agentar-Fin-R1,金融推理
    的頭像 發(fā)表于 07-28 16:36 ?657次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    DeepSeek-R1:強(qiáng)大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開(kāi)發(fā)的新一代AI大模型。其核心優(yōu)勢(shì)在于強(qiáng)大的推理引擎能力,融合了自然語(yǔ)言處理(NLP)、深度
    發(fā)表于 07-16 15:29

    模型推理顯存和計(jì)算量估計(jì)方法研究

    上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所提出的估計(jì)方法具有較高的準(zhǔn)確性和實(shí)用性。 五、結(jié)論 本文針對(duì)大模型推理的顯存和計(jì)算量估計(jì)問(wèn)題,提出了基于模型結(jié)
    發(fā)表于 07-03 19:43

    GAITC2025|張科:端云一體大模型推理應(yīng)用實(shí)戰(zhàn)

    出席并在《行業(yè)大模型應(yīng)用與發(fā)展》論壇發(fā)表演講,首次深入介紹京東零售在端云一體大模型推理架構(gòu)的實(shí)戰(zhàn)經(jīng)驗(yàn)與技術(shù)探索,并分享AI推理方向的未來(lái)發(fā)展
    的頭像 發(fā)表于 06-26 09:33 ?601次閱讀

    基于RAKsmart云服務(wù)器的AI大模型實(shí)時(shí)推理方案設(shè)計(jì)

    面對(duì)高并發(fā)請(qǐng)求、嚴(yán)格的響應(yīng)延遲要求及波動(dòng)的業(yè)務(wù)負(fù)載,傳統(tǒng)本地化部署的算力瓶頸愈發(fā)顯著。RAKsmart云服務(wù)器憑借其彈性計(jì)算資源池、分布式網(wǎng)絡(luò)架構(gòu)與全棧AI加速能力,為AI大模型實(shí)時(shí)推理
    的頭像 發(fā)表于 05-13 10:33 ?611次閱讀

    首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    基石。 Neuron Studio打造全流程一站式開(kāi)發(fā)體驗(yàn),為AI應(yīng)用開(kāi)發(fā)按下加速鍵 AI 應(yīng)用的開(kāi)發(fā)瓶頸,從來(lái)都不是“點(diǎn)的問(wèn)題”,而是“鏈的問(wèn)題”:開(kāi)發(fā)工具碎片化,調(diào)優(yōu)過(guò)程靠手動(dòng),單模型分析效率低
    發(fā)表于 04-13 19:52

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語(yǔ)言模型(LLM)的推理能力成了最熱門(mén)的話題之一,大量?jī)?yōu)化推理能力的新策略開(kāi)始出現(xiàn),包括擴(kuò)展推理時(shí)間計(jì)算、運(yùn)用強(qiáng)化學(xué)習(xí)、開(kāi)展監(jiān)督微調(diào)和進(jìn)行提煉等。本文將深入探討
    的頭像 發(fā)表于 04-03 12:09 ?1615次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現(xiàn)狀