Claude-3力壓GPT-4榮膺最佳大語言模型

近日，LMSYS Org發(fā)布最新的基準(zhǔn)測試報告，顯示Cordulas公司的Claude-3在平臺大語言模型中的得分略勝OpenAI的GPT-4。

值得注意的是，LMSYS Org是由加州大學(xué)伯克利分校、加州大學(xué)圣地亞哥分校以及卡內(nèi)基梅隆大學(xué)共同發(fā)起設(shè)立的研究組織。

日前，這家機構(gòu)推出了一項名為Chatbot Arena的服務(wù)，這是針對大語言模型（LLM）進行評估的基準(zhǔn)平臺，該平臺采用眾包形式對大型語言模型進行匿名隨機競爭打分，參考源于競技比賽領(lǐng)域中廣泛應(yīng)用的Elo評分體系。

分?jǐn)?shù)評價結(jié)果主要取決于用戶的投票意向，每次由系統(tǒng)隨機挑選兩個不同的大語言模型參與與用戶的對話，同時，為保障客觀性，匿名選擇哪個版本的大模型表現(xiàn)優(yōu)秀至關(guān)重要。

自去年啟動以來，GPT-4一直占據(jù)評測榜單之首。然而，昨日，由Anthropos推出的Claude 3 Opus以微弱優(yōu)勢戰(zhàn)勝了GPT-4，將OpenAI的LLM擠出了首位。

考慮到細微差距及誤差風(fēng)險，委員會決定授予Claude 3與GPT-4并列第一的榮譽，GPT-4的另外一個預(yù)設(shè)版也被列入并列第一的行列。此外，更引人注目的是，Claude 3 Haiku成功躋身前十名。Haiku是Anthropos針對本地規(guī)模的新型模型，功能類似谷歌的GeminiNano。

相較Opus參數(shù)高達幾萬億，Haiku體型更為緊湊，運行速度更快。據(jù)LMSYS數(shù)據(jù)顯示，Haikn在評測成績中排名第七，與GPT-4表現(xiàn)不遑多讓。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6254

瀏覽量
111557
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
572

瀏覽量
11324
GPT

GPT

+關(guān)注

關(guān)注
0

文章
368

瀏覽量
16897

微云疏影
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關(guān)注個人主頁

Hot 對比各家主流MCU指標(biāo)，國產(chǎn)MCU真的品質(zhì)不佳？
Hot 模擬信號和數(shù)字信號的區(qū)別和特點

New 方正電機成為小鵬汽車驅(qū)動電機供應(yīng)商，總需求量預(yù)計達35萬臺
New 雷諾-吉利動力總成合資企業(yè)HORSE在倫敦成立

精選推薦
更多

文章

資料

帖子

SMT生產(chǎn)良率卡在99%？從三大案例看如何用DFM軟件把問題消滅在設(shè)計階段

華秋DFM
4小時前

125 閱讀

晶圓代工迎集體調(diào)價：五大廠擬漲價10%，芯片成本再上行

章鷹觀察
1小時前

741 閱讀

全球高端第一的答卷：追覓掃地機的全球化啟示

腦極體
18小時前

1739 閱讀

時鐘芯片的基本原理及行業(yè)應(yīng)用

賽思電子
19小時前

918 閱讀

安霸AI SoC放大招：深度適配OpenClaw，驅(qū)動機器人自主進化

章鷹觀察
19小時前

4115 閱讀

Endlessh SSH粘性蜜罐

劉秀英
0.02 MB

免費

0下載

Gopherjs Chrome Bindings用Go語言來編寫Chrome擴展

久醉不醒
0.75 MB

2積分

2下載

SuperTinyIcons超級微小的社交圖標(biāo)

李超
5.78 MB

免費

0下載

MPMCQueue有界多生產(chǎn)者多用戶無鎖隊列

久醉不醒
0.05 MB

免費

0下載

用于21700電池的24v 7s PCB電池模塊

王銀喜
0.07 MB

免費

0下載

【米爾全志T153開發(fā)板評測】kws語音關(guān)鍵字識別測試

jf_1137202360
11小時前

75 閱讀

【米爾全志T153開發(fā)板評測】移植speex實現(xiàn)回聲消除和語音活動檢測等功能

jf_1137202360
1天前

167 閱讀

【飛凌嵌入式RV1126B開發(fā)板試用體驗】+ 2. 編譯與運行

slmxiaodai_163
1天前

476 閱讀

【米爾全志T153開發(fā)板評測】串口網(wǎng)口登錄與C開發(fā)環(huán)境搭建

jf_1137202360
2天前

461 閱讀

【瑞薩AI挑戰(zhàn)賽】在RA8P1上部署CFAIR-10分類模型

xusiwei1236
3天前

582 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

Claude-3力壓GPT-4榮膺最佳大語言模型

評論