91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT最強競品Claude2來了:代碼、GRE 成績超越GPT-4,免費可用

數(shù)據(jù)分析與開發(fā) ? 來源:機器之心 ? 2023-07-14 15:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

此次,Claude 2 除了一大波能力上的升級,更重要的是大家都可以用了。

今日,那個被很多網(wǎng)友稱為「ChatGPT 最強競品」的人工智能系統(tǒng) Claude 迎來了版本大更新。 Claude 2 正式發(fā)布! 據(jù)介紹,Claude 2 在編寫代碼、分析文本、數(shù)學(xué)推理等方面的能力得到加強,并且可以產(chǎn)生更長的響應(yīng)。 更重要的是,用戶可以在新的 beta 網(wǎng)站上免費試用,并且 Claude 2 商用 API 的價格與 1.3 版本相同。

ead08c98-21f9-11ee-962d-dac502259ad0.png

機器之心在此前的文章中多次介紹過 Claude,它是由 OpenAI 離職人員創(chuàng)建的 Anthropic 公司打造的。在 ChatGPT 發(fā)布兩個月后,該公司就迅速開發(fā)出了 Claude,可以完成摘要總結(jié)、搜索、協(xié)助創(chuàng)作、問答、編碼等任務(wù)。 之后持續(xù)升級,五月份通過 100K Context Windows 將 Claude 的上下文窗口從 9k token 擴展到了 100k。 現(xiàn)在終于迎來了大版本更新。Anthropic 表示,Claude 2 基于此前從用戶那里獲得的反饋建議進行改進。 接下來看各方面能力細節(jié)。 Claude 2 在哪些方面得到了加強? 總的來說,Claude 2 注重提高以下能力:

Anthropic 致力于提高 Claude 作為編碼助理的能力,Claude 2 在編碼基準和人類反饋評估方面性能顯著提升。

長上下文(long-context)模型對于處理長文檔、少量 prompt 以及使用復(fù)雜指令和規(guī)范進行控制特別有用。Claude 的上下文窗口從 9K token 擴展到了 100K token(Claude 2 已經(jīng)擴展到 200K token,但目前發(fā)布版本僅支持 100K token)。

以前的模型經(jīng)過訓(xùn)練可以編寫相當短的回答,但許多用戶要求更長的輸出。Claude 2 經(jīng)過訓(xùn)練,可以生成最多 4000 個 token 的連貫文檔,相當于大約 3000 個單詞。

Claude 通常用于將長而復(fù)雜的自然語言文檔轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)格式。Claude 2 經(jīng)過訓(xùn)練,可以更好地生成 JSON、XML、YAML、代碼和 Markdown 格式的正確輸出。

雖然 Claude 的訓(xùn)練數(shù)據(jù)仍然主要是英語,但 Claude 2 的訓(xùn)練數(shù)據(jù)中非英語數(shù)據(jù)比例已經(jīng)明顯增加。

Claude 2 的訓(xùn)練數(shù)據(jù)包括 2022 年和 2023 年初更新的數(shù)據(jù)。這意味著它知道最近發(fā)生的事件,但它仍然可能會產(chǎn)生混淆。

該研究進行了一系列評估實驗來測試 Claude 2 的性能水平,包括對齊評估和能力評估兩部分。 在模型對齊方面,該研究針對大模型的三個關(guān)鍵要求做了具體評估,包括:遵循指令、生成內(nèi)容有用(helpfulness);生成內(nèi)容無害(harmlessness);生成內(nèi)容準確、真實(honesty)。 人類反饋評估 大模型在生成過程中應(yīng)該遵循人類提供的指令,這將讓生成結(jié)果符合要求、實際有用。針對這一點,該研究對 Claude 2、Claude 1.3 和 Claude Instant 1.1 進行了實驗評估,并使用經(jīng)典的對弈水平評估指標 ——Elo 分數(shù),幾個模型的評估結(jié)果如下圖 1 所示:

eb0c2ba4-21f9-11ee-962d-dac502259ad0.png

偏見評估 Bias Benchmark for QA(BBQ)是用于評估模型對人群偏見的常用基準。該研究在 BBQ 基準上進行實驗評估,幾種模型的實驗結(jié)果如下圖 2 所示:

eb3112c0-21f9-11ee-962d-dac502259ad0.png

下圖 3 顯示了在消除歧義的語境下幾種模型回答 BBQ 基準中問題的準確性。值得注意的是,Claude 模型的準確率會比 Helpful-Only 模型低是因為模型會拒絕回答一些存在偏見的問題。

eb4aef38-21f9-11ee-962d-dac502259ad0.png

事實性評估 大模型有時會生成虛假混亂的信息,因此測試模型生成內(nèi)容的事實性非常重要。TruthfulQA 是一個用于評估語言模型在對抗性環(huán)境中輸出的準確性和真實性的基準,幾種模型的測試結(jié)果如下圖 4 所示:

eb6fc27c-21f9-11ee-962d-dac502259ad0.png

總的來說,Claude 2 在 HHH(在有用性(helpfulness)、無害性(harmlessness)、事實性(honesty)、)評估上的總體表現(xiàn)如下圖 6 所示:

eb9818da-21f9-11ee-962d-dac502259ad0.png

在能力評估方面,該研究針對多語言翻譯任務(wù)、上下文窗口、標準基準評估、資格水平考試幾個方面對 Claude 2 展開評估實驗。 多語言翻譯 該研究選擇涵蓋 200 多種語言的翻譯基準 Flores 200 來評估 Claude 2 的多語言翻譯能力,其中包括低資源語言。Claude 2、Claude 1.3 和 Claude Instant 1.1 的評估結(jié)果如下圖 7 所示:

ebd3c4c0-21f9-11ee-962d-dac502259ad0.png

上下文窗口 今年早些時候,研究團隊將 Claude 的上下文窗口從 9K token 擴展到了 100K token,現(xiàn)在 Claude 2 進一步擴展了上下文窗口, 達到 200K token,相當于約 150000 個單詞。 為了證明 Claude 2 會實際使用完整的上下文,該研究測量了每個 token 位置的損失,平均超過 1000 個長文檔,如下圖 8 所示:

ebf39da4-21f9-11ee-962d-dac502259ad0.png

不過,研究團隊表示目前發(fā)布的版本僅支持 100K token 的上下文窗口,完整的上下文窗口將會集成到他們的產(chǎn)品中。 標準基準評估 該研究在幾個標準基準上評估測試了 Claude 2、Claude Instant 1.1 和 Claude 1.3,包括用于 python 函數(shù)合成的 Codex HumanEval、用于解決小學(xué)數(shù)學(xué)問題的 GSM8k、用于多學(xué)科問答的 MMLU、針對長故事問答的 QuALITY、用于科學(xué)問題的 ARC-Challenge、用于閱讀理解的 TriviaQA 和用于中學(xué)水平閱讀理解與推理的 RACE-H,具體的評估結(jié)果如下表所示:

ec0a6278-21f9-11ee-962d-dac502259ad0.png

值得注意的是,Claude 2 生成代碼的能力有了明顯的提升,在 Codex HumanEval 上的得分從 56% 上升到 71.2%。 資格水平考試 該研究還用幾個常見資格水平考試的題目測試了 Claude 2 的實際能力。 首先,Claude 2 在美國律師資格考試(Bar Exam)的多項選擇題測試中得分率為 76.5%,高于 Claude 1.3 的 73.0%。

ec328bfe-21f9-11ee-962d-dac502259ad0.png

其次,研究團隊還用美國研究生入學(xué)考試(GRE)測試了 Claude 2 的能力水平,Claude 2 在 GRE 閱讀和寫作考試中的得分高于 90%,在定量推理方面與達到了參加 GRE 考試的考生的中位數(shù)水平。

ec4477e2-21f9-11ee-962d-dac502259ad0.png

最后,該研究還在美國醫(yī)師執(zhí)照考試(USMLE)題目上測試了 Claude 2:

ec51e8c8-21f9-11ee-962d-dac502259ad0.png

Anthropic 表示,人工智能寫作平臺 Jasper 和代碼導(dǎo)航工具 Sourcegraph 等公司已開始將 Claude 2 納入其運營中。 官方示例及試用體驗 我們先看 Anthropic 提供的一些官方示例。 1、編碼能力:為靜態(tài)地圖添加交互式數(shù)據(jù)。 2、文本處理能力:總結(jié)文檔、輸出表格。這里 Claude 2 用上了 100K token 文本處理功能,可以在 prompt 窗口上傳幾百頁的文檔。 除了以上,機器之心也嘗試了一些文本分析、數(shù)學(xué)推理和編寫代碼方面的示例。

ec6792ea-21f9-11ee-962d-dac502259ad0.png

試用地址:http://claude.ai 首先讓 Claude 2 以目錄形式總結(jié)一下「Claude 2 技術(shù)文檔」的要點,總結(jié)得非常詳細,對我們寫這篇文章有幫助。

ec75281a-21f9-11ee-962d-dac502259ad0.png

再來兩道數(shù)學(xué)推理題,Claude 2 只用一次就能搞定。

ecbf69fc-21f9-11ee-962d-dac502259ad0.png

eced1dd4-21f9-11ee-962d-dac502259ad0.png

最后測一些代碼題,生成、檢查和補全代碼都不在話下。

ed19ff66-21f9-11ee-962d-dac502259ad0.png

ed53cdcc-21f9-11ee-962d-dac502259ad0.png

edab8012-21f9-11ee-962d-dac502259ad0.png

不過,Claude 2 仍不具備生成圖片的多模態(tài)能力。

edebff02-21f9-11ee-962d-dac502259ad0.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50105

    瀏覽量

    265532
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4968

    瀏覽量

    74009
  • ChatGPT
    +關(guān)注

    關(guān)注

    31

    文章

    1598

    瀏覽量

    10281

原文標題:ChatGPT 最強競品 Claude2 來了:代碼、GRE 成績超越 GPT-4,免費可用

文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    IT崗位天塌了!Claude 4震撼發(fā)布:AI編程大模型再進化

    Claude Opus 4Claude Sonnet 4。這兩個模型旨在更好地遵循指令,在編寫代碼、解答復(fù)雜問題等任務(wù)中,能夠更自主
    的頭像 發(fā)表于 05-26 07:52 ?5831次閱讀
    IT崗位天塌了!<b class='flag-5'>Claude</b> <b class='flag-5'>4</b>震撼發(fā)布:AI編程大模型再進化

    OpenAI與Anthropic對戰(zhàn),Claude Opus 4.6與GPT-5.3-Codex同日發(fā)布

    電子發(fā)燒友網(wǎng)報道 北京時間2月6日凌晨,Anthropic與OpenAI分別推出了新版本基礎(chǔ)大模型——Claude Opus 4.6和GPT-5.3-Codex。 ? ? Claude
    的頭像 發(fā)表于 02-06 14:19 ?751次閱讀
    OpenAI與Anthropic對戰(zhàn),<b class='flag-5'>Claude</b> Opus 4.6與<b class='flag-5'>GPT</b>-5.3-Codex同日發(fā)布

    Claude Code在國內(nèi)怎么使用?AI編程人員必看的完整指南!

    這兩年,AI編程工具層出不窮,但最近 Claude AI 在程序開發(fā)者圈子里備受歡迎,越來越多程序員發(fā)現(xiàn)使用Claude的體驗非常接近“一個懂工程的搭檔”,而不是簡單的代碼生成器。 但問題也隨之而來
    的頭像 發(fā)表于 01-23 14:09 ?3271次閱讀
    <b class='flag-5'>Claude</b> Code在國內(nèi)怎么使用?AI編程人員必看的完整指南!

    GPT-5.1發(fā)布 OpenAI開始拼情商

    OpenAI正式上線 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網(wǎng)友實測發(fā)現(xiàn)OpenAI新發(fā)布的GPT-5.1大模型的指令執(zhí)行能力更強了,可以更
    的頭像 發(fā)表于 11-13 15:49 ?709次閱讀

    【RA4E2開發(fā)板評測】PWM 驅(qū)動舵機

      本篇使用 RA4E2 的 PWM 輸出,驅(qū)動舵機轉(zhuǎn)動,使用 RA4E2 驅(qū)動舵機非常方便,只要配置好 GPT PWM 模塊,就能輕松實現(xiàn)角度控制。 硬件準備 1、RA
    發(fā)表于 09-09 15:13

    【RA4M2-SENSOR】3、使用GPT定時器-PWM輸出

    項目01_I2C_OLED復(fù)制一份,重命名為02_PWM 查看原理圖得知,P102引腳可用GPT功能。 點擊configuration.xml文件,按下面幾張圖所示內(nèi)容配置。 打開引腳配置界面(Pin
    發(fā)表于 09-01 15:20

    OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價向美國政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語言模型GPT-5或?qū)l(fā)布。據(jù)外媒的報道,GPT-5很可能在周五凌晨發(fā)布。這是OpenAI在2023年的3月份推出自然語言處理模型GPT-4之后,兩年多時候后最受
    的頭像 發(fā)表于 08-07 14:13 ?1.3w次閱讀

    亞馬遜云科技Amazon Bedrock模型再更新,Anthropic最新版Claude4模型現(xiàn)已上線

    分鐘級完成。 將Claude Opus 4.1和Claude Sonnet 4引入Amazon Bedrock,為客戶提供Anthropic最先進模型的選擇,簡化了客戶借助企業(yè)
    的頭像 發(fā)表于 08-06 19:42 ?710次閱讀
    亞馬遜云科技Amazon Bedrock模型再更新,Anthropic最新版<b class='flag-5'>Claude4</b>模型現(xiàn)已上線

    淘寶API實時監(jiān)控,市場策略快人一步!

    在當今激烈的電商競爭中,實時掌握動態(tài)是企業(yè)制勝的關(guān)鍵。淘寶作為中國最大的電商平臺,其開放API為商家提供強大的工具,幫助實現(xiàn)實時監(jiān)
    的頭像 發(fā)表于 08-06 14:38 ?785次閱讀

    拼多多電商 API 接口:分析的絕佳工具!

    ? 在當今競爭激烈的電商市場中,企業(yè)需要快速獲取競爭對手的動態(tài)數(shù)據(jù)以優(yōu)化自身策略。拼多多作為中國領(lǐng)先的電商平臺之一,其開放的 API 接口為開發(fā)者提供強大的工具,尤其適用于分析。本文將一步步
    的頭像 發(fā)表于 07-04 16:17 ?1213次閱讀
    拼多多電商 API 接口:<b class='flag-5'>競</b><b class='flag-5'>品</b>分析的絕佳工具!

    CSS6404L 在物聯(lián)網(wǎng)設(shè)備中的應(yīng)用優(yōu)勢:低功耗高可靠的存儲革新與對比

    CSS6404L 通過 “高集成度 + 低功耗 + 寬適應(yīng)” 的組合特性,在容量、功耗、性能及場景兼容性上全面超越同類,尤其在需要兼顧長續(xù)航、高速傳輸與緊湊設(shè)計的物聯(lián)網(wǎng)場景中,成為平衡成本與性能的理想選擇。其自管理刷新、雙模
    的頭像 發(fā)表于 06-06 15:35 ?684次閱讀
    CSS6404L 在物聯(lián)網(wǎng)設(shè)備中的應(yīng)用優(yōu)勢:低功耗高可靠的存儲革新與<b class='flag-5'>競</b><b class='flag-5'>品</b>對比

    GPT-5即將面市 性能遠超GPT-4

    行業(yè)芯事
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2025年06月04日 13:38:23

    亞馬遜功能最強模型Amazon Nova Premier現(xiàn)已正式可用

    北京 2025年5月6日 /美通社/ -- 亞馬遜日前宣布Amazon Nova Premier已正式可用,進一步擴展Amazon Nova基礎(chǔ)模型系列。Amazon Nova Premier
    的頭像 發(fā)表于 05-09 18:18 ?597次閱讀
    亞馬遜功能<b class='flag-5'>最強</b>模型Amazon Nova Premier現(xiàn)已正式<b class='flag-5'>可用</b>

    【RA-Eco-RA4M2開發(fā)板評測】RA-Eco-RA4M2 PWM輸出

    。 在瑞薩RA4M2系列 MCU 中有兩種定時器,一種是通用 PWM 定時器 GPT,另外一種是異步通用定時器 AGT,在這里我們使用通用定時器GPT進行PWM輸出。 Figure ? GP
    發(fā)表于 04-28 22:57

    Claude 3.7:編碼助手首選,claude api key如何申請獲取與深度解析*

    Claude 3.7,這款被譽為“混合推理”先鋒的AI模型迅速成為開發(fā)者社區(qū)的焦點。它巧妙地結(jié)合快速代碼生成和深度
    的頭像 發(fā)表于 03-24 09:43 ?1885次閱讀
    <b class='flag-5'>Claude</b> 3.7:編碼助手首選,<b class='flag-5'>claude</b> api key如何申請獲取與深度解析*