九九九在线播放五月去色色,一级A婬片试看5O分钟

電子發(fā)燒友網(wǎng)報道北京時間2月6日凌晨，Anthropic與OpenAI分別推出了新版本基礎大模型——Claude Opus 4.6和GPT-5.3-Codex。

Claude Opus 4.6：重大升級，表現(xiàn)卓越

Claude Opus 4.6是Anthropic對其旗艦人工智能模型的一次關鍵升級。此版本規(guī)劃更謹慎，能維持更長時間自主工作流程，在企業(yè)關鍵基準測試中超越了包括GPT-5.2在內(nèi)的眾多競爭對手。

新模型首次擁有100萬token的上下文窗口，極大提升了AI處理和推理信息的能力。同時，Anthropic在Claude Code中引入類似Kimi K2.5的“智能體團隊”研究預覽功能，允許多個AI智能體同時處理編碼項目不同方面并自主協(xié)調(diào)。

Opus 4.6可將增強功能應用于多種日常工作任務，如運行財務分析、進行研究以及使用和創(chuàng)建文檔、電子表格和演示文稿。在Cowork環(huán)境中，它能自主執(zhí)行多任務，代表人類運用各項技能。

在多項評估中，Opus 4.6成績斐然。在智能體編碼評估工具Terminal-Bench 2.0中取得最高分，在復雜多學科推理測試“人類最后的考試”中領先其他前沿模型。在GDPval-AA測試中，其表現(xiàn)比GPT-5.2高出約144個Elo分數(shù)，比前代Claude Opus 4.5高出190分。此外，在衡量模型在線查找難尋信息能力的BrowseComp測試中，它也優(yōu)于其他模型。

Opus 4.6現(xiàn)已在claude.ai、API及所有主流云平臺上線，定價不變，每百萬token為5美元/25美元。針對大模型常見的“上下文腐爛”問題，Opus 4.6性能顯著優(yōu)于前代。在MRCR v2的8針1M變體測試中，Opus 4.6得分76%，而Sonnet 4.5僅18.5%，這表明其在保持性能的同時，可利用的上下文信息量大幅提升。

為證明其強大智能體能力，Anthropic研究員用16個智能體從零構建基于Rust的C語言編譯器。最終AI輸出10萬行代碼，可編譯Linux內(nèi)核，耗資2萬美元，歷經(jīng)2000多次Claude Code會話、兩周時間完成。該編譯器能在x86、ARM和RISC-V上構建可啟動的Linux 6.9，通過GCC 99%的壓力測試，可編譯FFmpeg、Redis等軟件，還能編譯并運行Doom游戲。代碼可在相關GitHub鏈接查看。雖無人類編寫代碼，但研究人員在測試設計、構建CI管道等方面發(fā)揮了重要作用，這似乎預示著未來AI工作流程中人類角色的轉變。

GPT-5.3-Codex：編程強模，潛力無限

OpenAI推出的GPT-5.3-Codex號稱世界上最強大的智能體編程模型。

在編程基準測試中，GPT-5.3-Codex在SWE-Bench Pro和Terminal-Bench 2.0中取得SOTA成績，在OSWorld和GDPval等智能體能力和真實世界任務測評中，較GPT-5.2-Codex有所提升。不過，OpenAI參加的基準測試數(shù)量較少，且與Claude Opus 4.6重疊不多，得分僅供參考。在Terminal-Bench 2.0上，GPT-5.3-Codex得分比Claude Opus 4.6高11.9%。

為展示編程能力，OpenAI展示了一款由GPT-5.3-Codex打造的賽車游戲，游戲有多輛賽車比拼、8張地圖，還能用空格鍵使用道具，雖畫風簡陋但完成度高，體驗鏈接已給出。

此外，GPT-5.3-Codex是OpenAI首個在自我創(chuàng)建中發(fā)揮關鍵作用的模型，其早期版本助力團隊加速模型開發(fā)。它結合了GPT-5.2-Codex的編程能力和GPT-5.2的推理能力與專業(yè)知識儲備，速度提升25%。這意味著它不僅可用于編程，還能勝任軟件工程中的調(diào)試、部署等工作，甚至可用于制作PPT、Excel、Word等，從OpenAI分享案例看效果良好。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴