91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

<button id="ygy4o"></button>

<code id="ygy4o"></code>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復(fù)

查看更多

查看更多

查看更多

VIP于到期續(xù)費

登錄后你可以

下載海量資料
學(xué)習(xí)在線課程
觀看技術(shù)視頻
寫文章/發(fā)帖/加入社區(qū)

會員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動

完善資料讓更多小伙伴認識你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

ChatGPT最強競品Claude2來了：代碼、GRE 成績超越GPT-4，免費可用

此次，Claude 2 除了一大波能力上的升級，更重要的是大家都可以用了。

今日，那個被很多網(wǎng)友稱為「ChatGPT 最強競品」的人工智能系統(tǒng) Claude 迎來了版本大更新。 Claude 2 正式發(fā)布！據(jù)介紹，Claude 2 在編寫代碼、分析文本、數(shù)學(xué)推理等方面的能力得到加強，并且可以產(chǎn)生更長的響應(yīng)。更重要的是，用戶可以在新的 beta 網(wǎng)站上免費試用，并且 Claude 2 商用 API 的價格與 1.3 版本相同。

機器之心在此前的文章中多次介紹過 Claude，它是由 OpenAI 離職人員創(chuàng)建的 Anthropic 公司打造的。在 ChatGPT 發(fā)布兩個月后，該公司就迅速開發(fā)出了 Claude，可以完成摘要總結(jié)、搜索、協(xié)助創(chuàng)作、問答、編碼等任務(wù)。之后持續(xù)升級，五月份通過 100K Context Windows 將 Claude 的上下文窗口從 9k token 擴展到了 100k。現(xiàn)在終于迎來了大版本更新。Anthropic 表示，Claude 2 基于此前從用戶那里獲得的反饋建議進行改進。接下來看各方面能力細節(jié)。 Claude 2 在哪些方面得到了加強？總的來說，Claude 2 注重提高以下能力：

Anthropic 致力于提高 Claude 作為編碼助理的能力，Claude 2 在編碼基準和人類反饋評估方面性能顯著提升。

長上下文（long-context）模型對于處理長文檔、少量 prompt 以及使用復(fù)雜指令和規(guī)范進行控制特別有用。Claude 的上下文窗口從 9K token 擴展到了 100K token（Claude 2 已經(jīng)擴展到 200K token，但目前發(fā)布版本僅支持 100K token）。

以前的模型經(jīng)過訓(xùn)練可以編寫相當短的回答，但許多用戶要求更長的輸出。Claude 2 經(jīng)過訓(xùn)練，可以生成最多 4000 個 token 的連貫文檔，相當于大約 3000 個單詞。

Claude 通常用于將長而復(fù)雜的自然語言文檔轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)格式。Claude 2 經(jīng)過訓(xùn)練，可以更好地生成 JSON、XML、YAML、代碼和 Markdown 格式的正確輸出。

雖然 Claude 的訓(xùn)練數(shù)據(jù)仍然主要是英語，但 Claude 2 的訓(xùn)練數(shù)據(jù)中非英語數(shù)據(jù)比例已經(jīng)明顯增加。

Claude 2 的訓(xùn)練數(shù)據(jù)包括 2022 年和 2023 年初更新的數(shù)據(jù)。這意味著它知道最近發(fā)生的事件，但它仍然可能會產(chǎn)生混淆。

該研究進行了一系列評估實驗來測試 Claude 2 的性能水平，包括對齊評估和能力評估兩部分。在模型對齊方面，該研究針對大模型的三個關(guān)鍵要求做了具體評估，包括：遵循指令、生成內(nèi)容有用（helpfulness）；生成內(nèi)容無害（harmlessness）；生成內(nèi)容準確、真實（honesty）。人類反饋評估大模型在生成過程中應(yīng)該遵循人類提供的指令，這將讓生成結(jié)果符合要求、實際有用。針對這一點，該研究對 Claude 2、Claude 1.3 和 Claude Instant 1.1 進行了實驗評估，并使用經(jīng)典的對弈水平評估指標 ——Elo 分數(shù)，幾個模型的評估結(jié)果如下圖 1 所示：

偏見評估 Bias Benchmark for QA（BBQ）是用于評估模型對人群偏見的常用基準。該研究在 BBQ 基準上進行實驗評估，幾種模型的實驗結(jié)果如下圖 2 所示：

下圖 3 顯示了在消除歧義的語境下幾種模型回答 BBQ 基準中問題的準確性。值得注意的是，Claude 模型的準確率會比 Helpful-Only 模型低是因為模型會拒絕回答一些存在偏見的問題。

事實性評估大模型有時會生成虛假混亂的信息，因此測試模型生成內(nèi)容的事實性非常重要。TruthfulQA 是一個用于評估語言模型在對抗性環(huán)境中輸出的準確性和真實性的基準，幾種模型的測試結(jié)果如下圖 4 所示：

總的來說，Claude 2 在 HHH（在有用性（helpfulness）、無害性（harmlessness）、事實性（honesty）、）評估上的總體表現(xiàn)如下圖 6 所示：

在能力評估方面，該研究針對多語言翻譯任務(wù)、上下文窗口、標準基準評估、資格水平考試幾個方面對 Claude 2 展開評估實驗。多語言翻譯該研究選擇涵蓋 200 多種語言的翻譯基準 Flores 200 來評估 Claude 2 的多語言翻譯能力，其中包括低資源語言。Claude 2、Claude 1.3 和 Claude Instant 1.1 的評估結(jié)果如下圖 7 所示：

上下文窗口今年早些時候，研究團隊將 Claude 的上下文窗口從 9K token 擴展到了 100K token，現(xiàn)在 Claude 2 進一步擴展了上下文窗口，達到 200K token，相當于約 150000 個單詞。為了證明 Claude 2 會實際使用完整的上下文，該研究測量了每個 token 位置的損失，平均超過 1000 個長文檔，如下圖 8 所示：

不過，研究團隊表示目前發(fā)布的版本僅支持 100K token 的上下文窗口，完整的上下文窗口將會集成到他們的產(chǎn)品中。標準基準評估該研究在幾個標準基準上評估測試了 Claude 2、Claude Instant 1.1 和 Claude 1.3，包括用于 python 函數(shù)合成的 Codex HumanEval、用于解決小學(xué)數(shù)學(xué)問題的 GSM8k、用于多學(xué)科問答的 MMLU、針對長故事問答的 QuALITY、用于科學(xué)問題的 ARC-Challenge、用于閱讀理解的 TriviaQA 和用于中學(xué)水平閱讀理解與推理的 RACE-H，具體的評估結(jié)果如下表所示：

值得注意的是，Claude 2 生成代碼的能力有了明顯的提升，在 Codex HumanEval 上的得分從 56% 上升到 71.2%。資格水平考試該研究還用幾個常見資格水平考試的題目測試了 Claude 2 的實際能力。首先，Claude 2 在美國律師資格考試（Bar Exam）的多項選擇題測試中得分率為 76.5%，高于 Claude 1.3 的 73.0%。

其次，研究團隊還用美國研究生入學(xué)考試（GRE）測試了 Claude 2 的能力水平，Claude 2 在 GRE 閱讀和寫作考試中的得分高于 90%，在定量推理方面與達到了參加 GRE 考試的考生的中位數(shù)水平。

最后，該研究還在美國醫(yī)師執(zhí)照考試（USMLE）題目上測試了 Claude 2：

Anthropic 表示，人工智能寫作平臺 Jasper 和代碼導(dǎo)航工具 Sourcegraph 等公司已開始將 Claude 2 納入其運營中。官方示例及試用體驗我們先看 Anthropic 提供的一些官方示例。 1、編碼能力：為靜態(tài)地圖添加交互式數(shù)據(jù)。 2、文本處理能力：總結(jié)文檔、輸出表格。這里 Claude 2 用上了 100K token 文本處理功能，可以在 prompt 窗口上傳幾百頁的文檔。除了以上，機器之心也嘗試了一些文本分析、數(shù)學(xué)推理和編寫代碼方面的示例。

試用地址：http://claude.ai 首先讓 Claude 2 以目錄形式總結(jié)一下「Claude 2 技術(shù)文檔」的要點，總結(jié)得非常詳細，對我們寫這篇文章有幫助。

再來兩道數(shù)學(xué)推理題，Claude 2 只用一次就能搞定。

最后測一些代碼題，生成、檢查和補全代碼都不在話下。

不過，Claude 2 仍不具備生成圖片的多模態(tài)能力。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1817

文章
50105

瀏覽量
265532
代碼

代碼

+關(guān)注

關(guān)注
30

文章
4968

瀏覽量
74009
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
31

文章
1598

瀏覽量
10281

原文標題：ChatGPT 最強競品 Claude2 來了：代碼、GRE 成績超越 GPT-4，免費可用

文章出處：【微信號：DBDevs，微信公眾號：數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評論

數(shù)據(jù)分析與開發(fā)
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關(guān)注個人主頁

Hot MySQL 5.7與MySQL 8.0 性能對比
Hot ADC在電路中扮演的作用衡量ADC性能的幾個重要指標

New MySQL編碼機制原理
New 數(shù)據(jù)脫敏的3種常見方案，好用到爆！

精選推薦
更多

文章

資料

帖子

恒溫晶振技術(shù)參數(shù)指標怎么看？

賽思電子
4小時前

261 閱讀

AI需求爆發(fā)，高端MLCC轉(zhuǎn)賣方市場，國產(chǎn)廠商如何接招抓住風(fēng)口

海闊天空的專欄
4小時前

354 閱讀

納芯微智能隔離柵極驅(qū)動NSI67x0助力電驅(qū)小型化與高可靠設(shè)計

米芯微電子
4小時前

276 閱讀

企業(yè)級AI Agent王炸! 英偉達GTC將開源 NemoClaw

章鷹觀察
6小時前

581 閱讀

RK3576+ES8388音頻開發(fā)：tinymix控件全解析

jf_44130326
10小時前

430 閱讀

西門子S7-300 PLC編程資料匯編

315879
13.5 MB

免費

0下載

基于DN232F直流到直流單輸出電源的參考設(shè)計

溫暖鏡頭
88.96KB

2積分

3下載

FusionDirectory系統(tǒng)架構(gòu)管理程序

王樹林
2.63 MB

2積分

1下載

foolqq基于圖像處理操作QQ的工具

李萍
0.78 MB

免費

0下載

在STM32上移植的mx wifi源代碼

jinyi7016
0.62 MB

8積分

2下載

在昉·星光開發(fā)板上通舵機控制板實現(xiàn)機器人舵機控制

感謝相遇
1天前

247 閱讀

使用 VisionFive 2 上的氣壓傳感器測量高度

大連云港
1天前

249 閱讀

【瑞薩AI挑戰(zhàn)賽】階段一：基于RA8P1的人臉識別模型轉(zhuǎn)換和部署

Zerolinr
1天前

680 閱讀

【飛凌嵌入式RV1126B開發(fā)板】+基本功能測試篇（1）

jennyzhaojie
5天前

2049 閱讀

【飛凌嵌入式RV1126B開發(fā)板】+初識篇

jennyzhaojie
6天前

2093 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

電子發(fā)燒友

My ElecFans

APP
網(wǎng)站地圖

設(shè)計技術(shù)

可編程邏輯

電源/新能源

MEMS/傳感技術(shù)

測量儀表

嵌入式技術(shù)

制造/封裝

模擬技術(shù)

RF/無線

接口/總線/驅(qū)動

處理器/DSP

EDA/IC設(shè)計

存儲技術(shù)

光電顯示

EMC/EMI設(shè)計

連接器

行業(yè)應(yīng)用

LEDs

汽車電子

音視頻及家電

通信網(wǎng)絡(luò)

醫(yī)療電子

人工智能

虛擬現(xiàn)實

可穿戴設(shè)備

機器人

安全設(shè)備/系統(tǒng)

軍用/航空電子

移動通信

工業(yè)控制

便攜設(shè)備

觸控感測

物聯(lián)網(wǎng)

智能電網(wǎng)

區(qū)塊鏈

新科技

特色內(nèi)容

專欄推薦

學(xué)院

設(shè)計資源

設(shè)計技術(shù)

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術(shù)文章

產(chǎn)品地圖

品牌地圖

社區(qū)

小組

論壇

問答

評測試用

企業(yè)服務(wù)

產(chǎn)品

資料

文章

方案

企業(yè)

供應(yīng)鏈服務(wù)

硬件開發(fā)

媒體服務(wù)

網(wǎng)站廣告

在線研討會

活動策劃

新聞發(fā)布

新品發(fā)布

小測驗

設(shè)計大賽

電子發(fā)燒友

關(guān)于我們

聯(lián)系我們

舉報投訴

社交網(wǎng)絡(luò)

微博

移動端

發(fā)燒友APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內(nèi)容合作

張迎輝：mikezhang@elecfans.com

關(guān)注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀察

版權(quán)所有 ? 長沙勒克斯教育咨詢有限公司

湖南省長沙市開福區(qū)月湖街道匍園路20號聚恒科技園1棟2301-1房
電子發(fā)燒友 （電路圖） 湘公網(wǎng)安備43011202000918 工商網(wǎng)監(jiān) 湘ICP備2023036445號-105-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级