91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

【每天學(xué)點(diǎn)AI】人工智能大模型評(píng)估標(biāo)準(zhǔn)有哪些?

華清遠(yuǎn)見(jiàn)工控 ? 2024-10-17 16:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

OpenAI新模型o1號(hào)稱編程能力8倍殺GPT-4o,MMLU媲美人類專家,MMLU是什么?評(píng)估大模型的標(biāo)準(zhǔn)是什么?

相信大家在閱讀大模型相關(guān)文檔的時(shí)候經(jīng)常會(huì)看到MMLU,BBH,GSM8K,MATH,HumanEval,MBPP,C-Eval,CMMLU等等這些都是什么?大模型訓(xùn)練完成后,如何客觀地評(píng)估其效果呢?

當(dāng)然我們不能依靠主觀判斷,于是研究者們制定了一系列標(biāo)準(zhǔn),用于測(cè)評(píng)大模型在不同數(shù)據(jù)集上的表現(xiàn)。而這些數(shù)據(jù)集( MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBH 和 CMMLU),正是用于評(píng)估大模型性能的重要依據(jù)。

wKgaoWcQz5eARQUEAAGyTAwPZCY680.png

當(dāng)然,它們也也可用于模型訓(xùn)練。

MMLU這個(gè)基準(zhǔn)包含STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))、人文學(xué)科、社會(huì)學(xué)科等57個(gè)學(xué)科領(lǐng)域,難度從初級(jí)到高級(jí)不等。

wKgZoWcQz5eAR2TAAAG28-vYLGg926.png

C-Eval 是一個(gè)全面的中文基礎(chǔ)模型評(píng)估套件,它包含了13948個(gè)多項(xiàng)選擇題,涵蓋了52個(gè)不同的學(xué)科和四個(gè)難度級(jí)別。

wKgZoWcQz5eAWDLKAAIDXISzVW8694.png

GSM8K(Grade School Math)是一個(gè)由OpenAI發(fā)布的數(shù)據(jù)集,有8.5K個(gè)高質(zhì)量語(yǔ)言多樣的小學(xué)數(shù)學(xué)問(wèn)題組成。這些問(wèn)題需要 2 到 8 個(gè)步驟來(lái)解決,解決方法主要是使用基本的算術(shù)運(yùn)算(+ - / *)進(jìn)行一連串的基本計(jì)算,以得出最終答案。

wKgaoWcQz5eAb5E9AAF4SUH2jqA445.png

雖然看起來(lái)很簡(jiǎn)單,但很多大模型的表現(xiàn)都不太好。

MATH是一個(gè)包含 12500 個(gè)數(shù)學(xué)競(jìng)賽問(wèn)題的數(shù)據(jù)集,其中的每個(gè)問(wèn)題都有一個(gè)完整的推導(dǎo)過(guò)程。

wKgZomcQz6KAL2nsAAKIjdVQXjY731.png

HumanEval是由 164 個(gè)簡(jiǎn)單編程問(wèn)題組成,主要用來(lái)評(píng)估語(yǔ)言理解、算法和簡(jiǎn)單的數(shù)學(xué)。

wKgaomcQz6KAMaCFAAHS2H-Env0490.png

MBPP(Mostly Basic Python Programming)由大約 1000 個(gè)Python 編程問(wèn)題組成,每個(gè)問(wèn)題由任務(wù)描述、代碼解決方案和 3 個(gè)自動(dòng)化測(cè)試用例組成。

wKgZomcQz6KAbEVGAAGu9iWXZn8426.png

BBH的全稱是BIG-Bench Hard,它是BIG-Bench數(shù)據(jù)集的一個(gè)子集,它專注于23個(gè)具有挑戰(zhàn)性的任務(wù),這些任務(wù)超出了當(dāng)前語(yǔ)言模型的能力范圍,BBH中的任務(wù)需要進(jìn)行多步驟推理。

wKgZomcQz6GAfufmAAHGWG1ilKw764.png

CMMLU,一個(gè)全面的中文大模型評(píng)估數(shù)據(jù)集。它涵蓋了67個(gè)主題,涉及自然科學(xué)、社會(huì)科學(xué)、工程、人文、以及常識(shí)等,就是中文版的MMLU。

wKgaomcQz6KAaST5AAIhd_uKnB8781.png

通過(guò)這些評(píng)測(cè)數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn),我們可以從不同角度系統(tǒng)地評(píng)估大模型的性能、泛化能力和魯棒性,為大模型的進(jìn)一步研究和應(yīng)用提供科學(xué)依據(jù)。

AI體系化學(xué)習(xí)路線

wKgaombzzxSAdyb-AAILSe8A5AM65.jpeg

學(xué)習(xí)資料免費(fèi)領(lǐng)

? AI全體系學(xué)習(xí)路線超詳版

? AI體驗(yàn)卡(AI實(shí)驗(yàn)平臺(tái)體驗(yàn)權(quán)限)

? 100余講AI視頻課程

? 項(xiàng)目源碼《從零開(kāi)始訓(xùn)練與部署YOLOV8》

? 170余篇AI經(jīng)典論文

全體系課程詳情介紹

wKgaomcQz6KAd9SqAAJYAp3tiGg628.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39793

    瀏覽量

    301403
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50098

    瀏覽量

    265363
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3650

    瀏覽量

    5183
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    淺談人工智能(2)

    接前文《淺談人工智能(1)》。 (5)什么是弱人工智能、強(qiáng)人工智能以及超人工智能? 弱人工智能(Weak
    的頭像 發(fā)表于 02-22 08:24 ?120次閱讀
    淺談<b class='flag-5'>人工智能</b>(2)

    人工智能應(yīng)用開(kāi)發(fā)-中級(jí)(大模型)》認(rèn)證證書(shū)含金量如何?怎么考?

    在國(guó)家《新一代人工智能發(fā)展規(guī)劃》及“人工智能+”行動(dòng)的雙重推動(dòng)下,人工智能與大模型技術(shù)已成為驅(qū)動(dòng)產(chǎn)業(yè)智能化升級(jí)的核心力量。目前,大
    的頭像 發(fā)表于 01-28 15:11 ?705次閱讀
    《<b class='flag-5'>人工智能</b>應(yīng)用開(kāi)發(fā)-中級(jí)(大<b class='flag-5'>模型</b>)》認(rèn)證證書(shū)含金量如何?怎么考?

    探索CY8CKIT - 062S2 - AI PSoC? 6人工智能評(píng)估套件

    探索CY8CKIT - 062S2 - AI PSoC? 6人工智能評(píng)估套件 在電子工程師的日常工作中,一款優(yōu)秀的評(píng)估套件往往能極大地提高開(kāi)發(fā)效率,加速產(chǎn)品推向市場(chǎng)的進(jìn)程。今天,我們就
    的頭像 發(fā)表于 12-19 14:30 ?306次閱讀

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以在最先進(jìn)的邊緣設(shè)備上進(jìn)行人工智能處理。在這篇博文中,我們將介紹這對(duì)開(kāi)發(fā)人員意味著什么,以及使用 Neuton 模型如何改進(jìn)您的開(kāi)發(fā)和終端
    發(fā)表于 08-31 20:54

    人工智能+”,走老路難賺到新錢(qián)

    昨天的“人工智能+”刷屏了,這算是官方第一次對(duì)“人工智能+”這個(gè)名稱定性吧?今年年初到現(xiàn)在,涌現(xiàn)出了一大批基于人工智能的創(chuàng)業(yè)者,這已經(jīng)算是AI2.0時(shí)代的第三波創(chuàng)業(yè)潮了,第一波是基礎(chǔ)大
    的頭像 發(fā)表于 08-27 13:21 ?724次閱讀
    “<b class='flag-5'>人工智能</b>+”,走老路難賺到新錢(qián)

    中國(guó)中車通過(guò)中國(guó)信通院可信AI人工智能數(shù)據(jù)集質(zhì)量四級(jí)評(píng)估

    2025年8月,中國(guó)中車集團(tuán)有限公司順利通過(guò)中國(guó)信通院可信AI人工智能數(shù)據(jù)集質(zhì)量4級(jí)評(píng)估,成為制造行業(yè)中首個(gè)獲得最高評(píng)級(jí)的中央企業(yè)。此次評(píng)估嚴(yán)格依據(jù)中國(guó)信通院牽頭編制的《面向
    的頭像 發(fā)表于 08-22 17:02 ?1421次閱讀

    挖到寶了!人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器

    應(yīng)用場(chǎng)景。從數(shù)據(jù)采集,到模型推理,都能完整且自如地參與,輕松解鎖人工智能全流程實(shí)訓(xùn),讓你深度體驗(yàn)AI技術(shù)的魅力 。 四、九門(mén)課程全覆蓋,滿足多元學(xué)習(xí)需求 對(duì)于高校教學(xué)或者技術(shù)學(xué)習(xí)來(lái)說(shuō),課程覆蓋的廣度
    發(fā)表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器!

    應(yīng)用場(chǎng)景。從數(shù)據(jù)采集,到模型推理,都能完整且自如地參與,輕松解鎖人工智能全流程實(shí)訓(xùn),讓你深度體驗(yàn)AI技術(shù)的魅力 。 四、九門(mén)課程全覆蓋,滿足多元學(xué)習(xí)需求 對(duì)于高校教學(xué)或者技術(shù)學(xué)習(xí)來(lái)說(shuō),課程覆蓋的廣度
    發(fā)表于 08-07 14:23

    超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級(jí)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    Neuton 是一家邊緣AI 公司,致力于讓機(jī)器 學(xué)習(xí)模型更易于使用。它創(chuàng)建的模型比競(jìng)爭(zhēng)對(duì)手的框架小10 倍,速度也快10 倍,甚至可以在最先進(jìn)的邊緣設(shè)備上進(jìn)行人工智能處理。在這篇博文
    發(fā)表于 07-31 11:38

    迅為RK3588開(kāi)發(fā)板Linux安卓麒麟瑞芯微國(guó)產(chǎn)工業(yè)AI人工智能

    迅為RK3588開(kāi)發(fā)板Linux安卓麒麟瑞芯微國(guó)產(chǎn)工業(yè)AI人工智能
    發(fā)表于 07-14 11:23

    最新人工智能硬件培訓(xùn)AI基礎(chǔ)入門(mén)學(xué)習(xí)課程參考2025版(離線AI語(yǔ)音視覺(jué)識(shí)別篇)

    端側(cè)離線 AI 智能硬件作為 AI 技術(shù)的重要載體之一,憑借其無(wú)需依賴網(wǎng)絡(luò)即可實(shí)現(xiàn)智能功能的特性,在一些網(wǎng)絡(luò)條件受限或?qū)?shù)據(jù)隱私有較高要求的場(chǎng)景中,發(fā)揮著不可或缺的作用。本章基于CSK
    發(fā)表于 07-04 11:14

    最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門(mén)學(xué)習(xí)課程參考2025版(大模型篇)

    人工智能模型重塑教育與社會(huì)發(fā)展的當(dāng)下,無(wú)論是探索未來(lái)職業(yè)方向,還是更新技術(shù)儲(chǔ)備,掌握大模型知識(shí)都已成為新時(shí)代的必修課。從職場(chǎng)上輔助工作的智能助手,到課堂用于學(xué)術(shù)研究的
    發(fā)表于 07-04 11:10

    開(kāi)售RK3576 高性能人工智能主板

    ,HDMI-4K 輸出,支 持千兆以太網(wǎng),WiFi,USB 擴(kuò)展/重力感應(yīng)/RS232/RS485/IO 擴(kuò)展/I2C 擴(kuò)展/MIPI 攝像頭/紅外遙控 器等功能,豐富的接口,一個(gè)全新八核擁有超強(qiáng)性能的人工智能
    發(fā)表于 04-23 10:55

    Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺(tái),加速企業(yè)人工智能應(yīng)用

    -Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺(tái),加速企業(yè)人工智能應(yīng)用 Cognizant將在關(guān)鍵增長(zhǎng)領(lǐng)域提供解決方案,包括企業(yè)級(jí)AI智能體、定制化行業(yè)大型語(yǔ)言
    的頭像 發(fā)表于 03-26 14:42 ?742次閱讀
    Cognizant將與NVIDIA合作部署神經(jīng)<b class='flag-5'>人工智能</b>平臺(tái),加速企業(yè)<b class='flag-5'>人工智能</b>應(yīng)用

    AI人工智能隱私保護(hù)怎么樣

    在當(dāng)今科技飛速發(fā)展的時(shí)代,AI人工智能已經(jīng)深入到我們生活的方方面面,從醫(yī)療診斷到交通調(diào)度,從教育輔助到娛樂(lè)互動(dòng),其影響力無(wú)處不在。然而,隨著AI人工智能的廣泛應(yīng)用,其安全性問(wèn)題也備受關(guān)
    的頭像 發(fā)表于 03-11 09:46 ?1202次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>人工智能</b>隱私保護(hù)怎么樣