欧美色图亚洲色图一区二区,9999亚洲亚洲欧美操,欧洲国模视频在线观看播放

在 AI 領(lǐng)域，我們聽?wèi)T了萬億參數(shù)、Context Window（上下文窗口）這些指標(biāo)，但盛大集團創(chuàng)始人陳天橋提出了一個全新的工程度量衡：在300步復(fù)雜推理后，依然維持99%的正確率。

為什么要死磕“300步”？這背后是殘酷的概率學(xué)。陳天橋?qū)⑼评淼淖钚挝欢x為“標(biāo)準(zhǔn)原子步”（SIU），即每一步只執(zhí)行單一邏輯，且可被工具檢驗 ?，F(xiàn)狀是，即便大模型單步準(zhǔn)確率達到驚人的 98%，在經(jīng)過 300 步的鏈?zhǔn)椒磻?yīng)后，端到端的成功率也會指數(shù)級衰減至 0.23% 。這意味著，依靠當(dāng)前 Transformer 架構(gòu)的“概率預(yù)測”來解決長鏈路科學(xué)問題（如新藥研發(fā)、工程設(shè)計），在數(shù)學(xué)上是死路一條。

陳天橋的解決方案極具工程思維：將推理過程解耦為“邏輯生成層”與“檢驗層” 。

生成層（想）：負責(zé)將大問題遞歸拆解為原子操作；

檢驗層（查）：對每一個原子步進行外部驗證（仿真、工具、數(shù)據(jù)）。

這種架構(gòu)要求 AI 必須具備“可累積的長期記憶”和“自我糾錯”能力。MiroMind 的 BrowseComp 實踐證明了這條路徑的可行性：僅用 235B 參數(shù)的小模型，通過反復(fù)的 Agent/環(huán)境交互和糾錯，擊敗了依賴一次性生成的更大模型。

這標(biāo)志著 AGI 的研發(fā)重點正在發(fā)生轉(zhuǎn)移：從訓(xùn)練更會“蒙”的大模型，轉(zhuǎn)向構(gòu)建一個高可信、可審計的通用推理引擎。對于開發(fā)者而言，未來的核心競爭力或許不在于 Prompt Engineering，而在于構(gòu)建能夠把每一步推理“釘死”的工具鏈驗證系統(tǒng)。

以下為陳天橋博文全文：

言語道斷，因果自現(xiàn)——我心中的AGI是什么

過去這一兩年，我們親眼看著大模型的語言能力以肉眼可見的速度躍遷：寫作、總結(jié)、對話、問答、解題，越來越“像人”；HLE 之類的評測分數(shù)一再刷新紀(jì)錄，連奧數(shù)級別的題目也能被系統(tǒng)性攻克。于是一個看上去順理成章的結(jié)論開始流行：“所謂 AGI、大一統(tǒng)的通用智能，大概也就差不多了?！钡谖铱磥?，這是一場美麗的誤會。

為了把這件事講清楚，我借用一個比喻：今天主流的大模型，更像是“文科大模型”。它以語言生成與文本一致性為中心，把知識組織成“像真的敘述”和“像對的答案”。它的價值在于“模擬”：它能理解我們的委婉與修辭，能生成優(yōu)雅的文字、逼真的對話、動人的故事；它會在教育、溝通、內(nèi)容生產(chǎn)上變成新的基礎(chǔ)設(shè)施，像電、像水，潤物無聲。但是即便它能解奧數(shù)、HLE 也能拿高分，這些勝利也大多發(fā)生在封閉系統(tǒng)里：題目定義明確、規(guī)則固定、對錯可判、反饋即時。

但我一直堅信，人類真正需要 AI 去對抗的，是衰老、疾病、能源、材料、氣候這些問題；這些戰(zhàn)場不在考試題的封閉世界里，沒有標(biāo)準(zhǔn)答案等你生成，只有現(xiàn)象、噪聲、偏差、缺失變量與緩慢反饋；正確不是“寫出來”的，而是被外部世界“確認出來”的。封閉世界的高分，證明了推理工程的成熟，但并不代表已經(jīng)擁有了穩(wěn)定的知識生產(chǎn)機制；高水平解題固然是走向發(fā)現(xiàn)的必要基礎(chǔ)，卻遠非充分條件，因為真正決定未來的，不是封閉的敘述，而是那條冰冷而精確的因果紅線；它關(guān)心的不是“說得對不對勁”，而是“這個假設(shè)能不能被現(xiàn)實否決或確認”；它的終極產(chǎn)物不是新作品，而是新知識——新的定理、新的材料、新的藥物、新的工藝、新的工程結(jié)構(gòu)。我把這種范式稱為“理科大模型”。它的價值在于“發(fā)現(xiàn)”。

需要澄清一點：我說的“文科/理科”，不是兩種模型的物種差異，而是兩種默認動作的差異：文科大模型傾向給出一個“看起來不錯的最終答案”，理科大模型傾向先給出一組可證偽的假設(shè)，并同時給出把這些假設(shè)變成證據(jù)的路徑；文科模型在不確定處更容易把答案“湊圓”，理科模型在不確定處更像本能地停一下，然后去查證、去拆解，把問題拆成可驗證的小問題；理科模型把因果當(dāng)作第一公民，回答“條件改變后會發(fā)生什么”；理科模型還必須有可累積的長期記憶，把每一次驗證得到的結(jié)論以可追溯的方式寫回去?？傊?，理科模型更像一個握著手術(shù)刀的外科醫(yī)生：在無數(shù)方案里，識別哪一刀真正觸及因果紅線；它知道，一旦切下去，現(xiàn)實會給出最誠實、也最殘酷的反饋，形成真正的因果閉環(huán)——這種對“真實代價”的敬畏，正是兩種范式之間最本質(zhì)的鴻溝。

所以，真正決定 AGI 應(yīng)該是什么，取決于我們的價值取向：我們究竟更在意一個能理解所有修辭，還能取代人類工作的“靈魂伴侶”，還是更迫切地需要一個能幫我們撕開迷霧、照亮未知，創(chuàng)造價值的“因果明鏡”？我認為是后者。所以，實現(xiàn) AGI 不是為了再造一個更會聊天的會生成的系統(tǒng)，而是為了打造一種“會發(fā)現(xiàn)”的智能。

讓我們帶著這樣的價值觀去審視一下現(xiàn)有的 AGI 定義的主要流派。一種是行為主義范式，源于圖靈測試，認為 AGI 的標(biāo)準(zhǔn)是“機器表現(xiàn)出的行為與人類無法區(qū)分”。這是目前大眾最直觀的評判標(biāo)準(zhǔn)。但如果一個 AI 只是在模仿人類說話，它永遠無法告訴我們那些人類還沒發(fā)現(xiàn)的真理。第二種是功能主義范式。以 OpenAI 為代表，定義 AGI 為“在大多數(shù)具有經(jīng)濟價值的工作中超越人類的自適應(yīng)系統(tǒng)”，側(cè)重于對人類勞動力的替代能力。但人類文明的每一次飛躍，都不是靠把舊工作做得更快，而是靠發(fā)現(xiàn)前所未有的新規(guī)律。第三種是能力分級范式。以 DeepMind 為代表，將 AGI 分為從 "Emerging" 到 "Superhuman" 的五個層級，核心指標(biāo)是在廣泛且未見過的任務(wù)中的“泛化能力”與“表現(xiàn)分值”?？涩F(xiàn)實世界不是考場，沒有標(biāo)準(zhǔn)答案，真正的智慧是要在沒有考卷的地方，自己找到那條正確的路。當(dāng)然還有一些其他的范式都或多或少存在上述問題。

那么我心目中 AGI 目標(biāo)究竟要做什么？用一句話概括：它是一個高可信、可驗證、可糾錯的通用推理引擎。在工程上能夠做到三百步以上的復(fù)雜推理后，依然維持接近 99% 級別的整體正確率，并通過形式化和工具鏈把每一步推理“釘死”為可檢查的證據(jù)，最終對任意復(fù)雜問題給出閉環(huán)解決方案。

為什么我們死磕“300 步”？我們必須先定義推理的最小單位——標(biāo)準(zhǔn)原子步（SIU, Standard Inference Unit），作為可審計的基本推理單元。每一步只執(zhí)行單一邏輯操作，依賴最小必要輸入，其結(jié)果可以通過工具或規(guī)則直接檢驗。按照這個標(biāo)準(zhǔn)，現(xiàn)在的大模型單步推理準(zhǔn)確率最高能沖到 98%，哪怕每一步都能做到這個最高水平，300 步后的端對端成功率也只有 0.23%，已經(jīng)接近歸零。這意味著在 300 步之后，概率和運氣基本失效，系統(tǒng)必須依賴可檢驗的推理與外部反饋閉環(huán)，而不是靠“看起來合理”的續(xù)寫去蒙混過關(guān)。所以我認為 300 步是獨立解決復(fù)雜現(xiàn)實問題的“跨度起點”。

為什么 99% 必須是硬杠？因為發(fā)現(xiàn)式系統(tǒng)不是用來“聊天”，而是要進入現(xiàn)實成本區(qū)間：實驗、工程、醫(yī)療、決策。低一個點的可靠性，就意味著高頻的錯誤下注；而現(xiàn)實世界的錯誤，不是“答錯題”，而是浪費實驗窗口、燒掉工程預(yù)算、甚至造成不可逆的損耗。99% 不是面子指標(biāo)，而是“可質(zhì)押、可簽字”的門檻。

所以，我心目中的 AGI，是能在 300 步的邏輯長征中，靠自我糾錯熬過“概率死亡”，最終抵達地圖之外的起點。從這里開始，AGI 就可以在科學(xué)、工程、決策規(guī)劃等任意領(lǐng)域里，作為一個可審計、可驗證的通用問題求解器存在。

當(dāng)然，我并不認為這是一條“喊口號就能到達”的路線。把目標(biāo)釘在“300 步仍保持 99% 可靠性”，本質(zhì)上是在主動面對三個工程硬點：長鏈誤差累積、開放世界驗證缺口、以及組合爆炸下的預(yù)算約束。正因如此，我們在工程上必須進行解剖，將推理過程分為兩層：邏輯生成層與檢驗層。生成層負責(zé)“想”：將大問題遞歸地拆解，直到細化為原子級操作，我們還要做檢驗層負責(zé)“查”：對每一個原子步通過工具、仿真或外部數(shù)據(jù)逐一驗證。一旦某一步不過關(guān)，系統(tǒng)就在局部進行回退和重生成，而不是推翻整條推理鏈。

MiroMind 已經(jīng)在這條路走出了第一步。以 BrowseComp 為例，MiroMind 僅用 235B 參數(shù)模型就給出了 SOTA 的成績，它的意義不在于“分數(shù)本身”，而在于證明了一個工程事實：我們正在把推理從“單次生成”推進到“時間序列上的反復(fù)求證”。更具體地說，我們不是依賴一次性長鏈思考去賭對答案，而是訓(xùn)練模型在更深、更頻繁的 agent/環(huán)境交互中不斷獲取外部反饋并糾錯，讓推理過程逐步變成可審計的證據(jù)鏈。對我們而言，這就是“通用求解器”的第一塊地基，然后在 99% 可靠性前提下逐步推到 300 步以上的跨度。這個過程沉默、緩慢、嚴謹、甚至有點殘酷，它拋棄了人類語言的精妙模仿，卻在枯燥、嚴苛、卻能被現(xiàn)實反復(fù)復(fù)現(xiàn)的因果閉環(huán)中，緩慢破土而出，即使有耐心資本的加持和理想主義的堅守，這也會是一個非常痛苦的過程。

佛經(jīng)里有個詞，叫“大圓鏡智”。說的是一個人的心若能修到像一面大圓鏡，就能如實照見萬物因果，不被塵埃遮蔽，不被偏見扭曲，這是智慧的最高境界。我對這個智慧一直很向往，甚至創(chuàng)辦的科普視頻號也取名叫做大圓鏡。而我心中的 AGI 就是一個無限接近“大圓鏡智”的智能系統(tǒng)，不迷戀漂亮的語言，而是追問事實的真相是什么；不急著給出答案，而是去求證背后的因果是什么。在一個被語言和敘事塞滿的 AI 時代，我們需要一面只對“因果和真相”負責(zé)的鏡子。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
39711

瀏覽量
301327
Agi

Agi

+關(guān)注

關(guān)注
0

文章
100

瀏覽量
10819

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

解析陳天橋的 AGI 工程標(biāo)尺：為何“300步”推理是生與死的分界線？

評論

搜索歷史

解析陳天橋的 AGI 工程標(biāo)尺：為何“300步”推理是生與死的分界線？

評論

解析陳天橋的 AGI 工程標(biāo)尺：為何“300步”推理是生與死的分界線？