91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌開發(fā)出超過(guò)一萬(wàn)億參數(shù)的語(yǔ)言模型,秒殺GPT-3

人工智能與大數(shù)據(jù)技術(shù) ? 來(lái)源:新智元 ? 作者:新智元 ? 2021-01-27 16:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

繼GPT-3問(wèn)世僅僅不到一年的時(shí)間,Google重磅推出Switch Transformer,直接將參數(shù)量從GPT-3的1750億拉高到1.6萬(wàn)億,并比之前最大的、由google開發(fā)的語(yǔ)言模型T5-XXL足足快了4倍。

對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō),參數(shù)可以算得上算法的關(guān)鍵:他們是歷史的輸入數(shù)據(jù),經(jīng)過(guò)模型訓(xùn)練得來(lái)的結(jié)果,是模型的一部分。

一般來(lái)說(shuō),在NLP領(lǐng)域,參數(shù)數(shù)量和復(fù)雜程度之間具有正相關(guān)性。

迄今為止,OpenAI 的 GPT-3是有史以來(lái)最大的語(yǔ)言模型之一,有1750億個(gè)參數(shù)。

現(xiàn)在,距離GPT-3問(wèn)世不到一年的時(shí)間,更大更復(fù)雜的語(yǔ)言模型又來(lái)了——

在對(duì)這種相關(guān)性進(jìn)行最全面測(cè)試的基礎(chǔ)上,谷歌的研究人員開發(fā)了一種能夠訓(xùn)練包含超過(guò)一萬(wàn)億參數(shù)的語(yǔ)言模型:Switch Transformer,并進(jìn)行了基準(zhǔn)測(cè)試。

他們表示,1.6萬(wàn)億參數(shù)模型是迄今為止最大的,并比之前最大的、由google開發(fā)的語(yǔ)言模型T5-XXL足足快了4倍。

5d825108-6001-11eb-8b86-12bb97331649.png

圖:Switch 模型設(shè)計(jì)和預(yù)訓(xùn)練表現(xiàn)

研究人員在論文中表示,對(duì)于強(qiáng)大模型來(lái)說(shuō),進(jìn)行大規(guī)模訓(xùn)練是一個(gè)非常有效的途徑。

盡管在大數(shù)據(jù)集和參數(shù)支撐下的簡(jiǎn)單的架構(gòu)可以超越一些復(fù)雜的算法,然而,高效且大規(guī)模的訓(xùn)練卻屬于極度的計(jì)算密集型。

5db674a6-6001-11eb-8b86-12bb97331649.png

而這,也正是Google的研究者發(fā)明Switch Transformer的原因。

5e0e1de6-6001-11eb-8b86-12bb97331649.png

圖:Switch Transformer編碼塊

Switch Transformer使用了一種叫做稀疏激活(sparsely activated)的技術(shù),這個(gè)技術(shù)只使用了模型權(quán)重的子集,或者是轉(zhuǎn)換模型內(nèi)輸入數(shù)據(jù)的參數(shù),即可達(dá)成相同的效果。

此外,Switch Transformer還主要建立在混合專家(Mix of Expert)的基礎(chǔ)上。

5e4d3a44-6001-11eb-8b86-12bb97331649.png

圖:Token動(dòng)態(tài)路由示例

什么是“混合專家”呢?

混合專家(Mix of Expert,MoE)是90年代初首次提出的人工智能模型范式。

在MoE中,對(duì)于不同的輸入,會(huì)選擇不同的參數(shù)。多個(gè)專家(或者專門從事不同任務(wù)的模型)被保留在一個(gè)更大的模型中,針對(duì)任何給定的數(shù)據(jù),由一個(gè)“門控網(wǎng)絡(luò)”來(lái)選擇咨詢哪些專家。

其結(jié)果是一個(gè)稀疏激活的模型——具有數(shù)量驚人的參數(shù),但計(jì)算成本不變。然而,盡管MoE取得了一些顯著的成功,但其廣泛采用仍然受到復(fù)雜性、通信成本和訓(xùn)練不穩(wěn)定性的阻礙。而Switch Transformer則解決了這些問(wèn)題。

Switch Transformer的新穎之處,在于它有效地利用了為密集矩陣乘法(廣泛應(yīng)用于語(yǔ)言模型的數(shù)學(xué)運(yùn)算)設(shè)計(jì)的硬件,如GPU和谷歌的TPU。

5e91fe36-6001-11eb-8b86-12bb97331649.png

圖:數(shù)據(jù)和權(quán)重劃分策略

在研究人員的分布式訓(xùn)練設(shè)置中,他們的模型將不同的權(quán)重分配到不同的設(shè)備上,因此,雖然權(quán)重會(huì)隨著設(shè)備數(shù)量的增加而增加,但是每個(gè)設(shè)備卻可以保持可管理的內(nèi)存和計(jì)算足跡。

在一項(xiàng)實(shí)驗(yàn)中,研究人員使用了32個(gè)TPU核,在“Colossal Clean Crawled Corpus”,也就是 C4 數(shù)據(jù)集上,預(yù)先訓(xùn)練了幾種不同的Switch Transformer模型。

C4是一個(gè)750gb大小的數(shù)據(jù)集,包含從Reddit、Wikipedia和其他web資源上獲取的文本。

研究人員讓這些Switch Transformer模型去預(yù)測(cè)有15%的單詞被掩蓋的段落中遺漏的單詞,除此之外,還為模型布置了許多其他挑戰(zhàn),如檢索文本來(lái)回答一系列越來(lái)越難的問(wèn)題等等。

研究人員聲稱,和包含3950億個(gè)參數(shù)和64名專家的更小的模型(Switch-XXL)相比,他們發(fā)明的擁有2,048名專家的1.6萬(wàn)億參數(shù)模型(Switch-C)則“完全沒(méi)有訓(xùn)練不穩(wěn)定性”。

然而,在SQuAD的基準(zhǔn)測(cè)試上,Switch-C的得分卻更低(87.7),而Switch-XXL的得分為89.6。

對(duì)此,研究人員將此歸因于微調(diào)質(zhì)量、計(jì)算要求和參數(shù)數(shù)量之間的不明確關(guān)系。

在這種情況下,Switch Transformer還是在許多下游任務(wù)上的效果有了提升。例如,根據(jù)研究人員的說(shuō)法,在使用相同數(shù)量的計(jì)算資源的情況下,它可以使預(yù)訓(xùn)練的速度提高了7倍以上。

5f28a390-6001-11eb-8b86-12bb97331649.png

圖:所有模型均在32個(gè)TPU上進(jìn)行訓(xùn)練

同時(shí)研究人員證明,大型稀疏模型可以用來(lái)創(chuàng)建更小、更稠密的模型,這些模型可以對(duì)任務(wù)進(jìn)行微調(diào),其質(zhì)量增益只有大型模型的30% 。

在一個(gè)測(cè)試中,一個(gè) Switch Transformer 模型被訓(xùn)練在100多種不同的語(yǔ)言之間進(jìn)行翻譯,研究人員觀察到其中101種語(yǔ)言都得到了“普遍的改善”,91% 的語(yǔ)言受益于超過(guò)baseline模型4倍以上的速度。

5f8a406e-6001-11eb-8b86-12bb97331649.png

圖:101種語(yǔ)言的多語(yǔ)言預(yù)訓(xùn)練

研究人員在論文中寫道: “雖然這項(xiàng)工作主要集中在超大型模型上,但我們也發(fā)現(xiàn),只有兩個(gè)專家的模型能夠提高性能,同時(shí)很容易適應(yīng)常用 GPU 或 TPU 的內(nèi)存約束。”

“我們不能完全保證模型的質(zhì)量,但是通過(guò)將稀疏模型蒸餾成稠密模型,同時(shí)達(dá)到專家模型質(zhì)量增益的30%的情況下 ,是可以達(dá)到10到100倍壓縮率的?!?/p>

在未來(lái)的工作中,研究人員計(jì)劃將Switch Transformer應(yīng)用到新的和跨越不同的模態(tài)中去,包括圖像和文本。他們認(rèn)為,模型稀疏性可以賦予各種不同媒介以及多模態(tài)模型一些優(yōu)勢(shì)。

在論文的最后,Google的研究人員還表示:

總的來(lái)說(shuō),Switch Transformers是一個(gè)可擴(kuò)展的,高效的自然語(yǔ)言學(xué)習(xí)模型。

通過(guò)簡(jiǎn)化MoE,得到了一個(gè)易于理解、易于訓(xùn)練的體系結(jié)構(gòu),該結(jié)構(gòu)還比同等大小的密集模型具有更大的采樣效率。

這些模型在一系列不同的自然語(yǔ)言任務(wù)和不同的訓(xùn)練機(jī)制中,包括預(yù)訓(xùn)練、微調(diào)和多任務(wù)訓(xùn)練,都表現(xiàn)出色。

這些進(jìn)步使得使用數(shù)千億到萬(wàn)億參數(shù)訓(xùn)練模型成為可能,相對(duì)于密集的T5基準(zhǔn),這些模型可以實(shí)現(xiàn)顯著的加速。

谷歌的研究人員表示,希望他們的工作能夠激勵(lì)稀疏模型成為一種有效的架構(gòu),并鼓勵(lì)研究人員和實(shí)踐者在自然語(yǔ)言任務(wù)中考慮這些靈活的模型。

原文標(biāo)題:1.6萬(wàn)億參數(shù),秒殺GPT-3!谷歌推出超級(jí)語(yǔ)言模型Switch Transformer,比T5快4倍

文章出處:【微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111448
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50102

    瀏覽量

    265521
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3755

    瀏覽量

    52124

原文標(biāo)題:1.6萬(wàn)億參數(shù),秒殺GPT-3!谷歌推出超級(jí)語(yǔ)言模型Switch Transformer,比T5快4倍

文章出處:【微信號(hào):TheBigData1024,微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    GPT-5震撼發(fā)布:AI領(lǐng)域的重大飛躍

    躍升重新定義了人工智能的能力邊界。OpenAI首席執(zhí)行官山姆·奧特曼在發(fā)布會(huì)上直言:“這不僅是模型的升級(jí),更是通往通用人工智能(AGI)的關(guān)鍵里程碑?!?? ? GPT-5:集成模型,能力躍升 ?
    的頭像 發(fā)表于 08-09 07:44 ?1w次閱讀
    <b class='flag-5'>GPT</b>-5震撼發(fā)布:AI領(lǐng)域的重大飛躍

    模型實(shí)戰(zhàn)(SC171開發(fā)套件V2-FAS)

    模型實(shí)戰(zhàn)(SC171開發(fā)套件V2-FAS) 序列 課程名稱 視頻課程時(shí)長(zhǎng) 視頻課程鏈接 課件鏈接 工程源碼 1 大語(yǔ)言模型(Qwen3)案
    發(fā)表于 02-11 14:57

    解鎖谷歌FunctionGemma模型的無(wú)限潛力

    在智能體 AI 領(lǐng)域,工具調(diào)用能力是將自然語(yǔ)言轉(zhuǎn)化為可執(zhí)行軟件操作的關(guān)鍵。此前,我們發(fā)布了專門針對(duì)函數(shù)調(diào)用而特別優(yōu)化的 Gemma 3 270M 模型版本 FunctionGemma。該模型
    的頭像 發(fā)表于 02-04 11:30 ?339次閱讀
    解鎖<b class='flag-5'>谷歌</b>FunctionGemma<b class='flag-5'>模型</b>的無(wú)限潛力

    什么是大模型,智能體...?大模型100問(wèn),快速全面了解!

    一、概念篇1.什么是大模型?大模型是指參數(shù)規(guī)模巨大(通常達(dá)到數(shù)十億甚至萬(wàn)億級(jí)別)、使用海量數(shù)據(jù)訓(xùn)練而成的人工智能模型。2.什么是大
    的頭像 發(fā)表于 02-02 16:36 ?925次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問(wèn),快速全面了解!

    上海交大發(fā)布國(guó)產(chǎn)光學(xué)大模型Optics GPT

    電子發(fā)燒友網(wǎng)綜合報(bào)道 1月25日,上海交通大學(xué)正式推出光學(xué)領(lǐng)域垂直大語(yǔ)言模型——Optics GPT(光學(xué)大模型),這是一款完全自主研發(fā)的國(guó)產(chǎn)模型
    的頭像 發(fā)表于 01-26 09:59 ?1140次閱讀
    上海交大發(fā)布國(guó)產(chǎn)光學(xué)大<b class='flag-5'>模型</b>Optics <b class='flag-5'>GPT</b>

    GPT-5.1發(fā)布 OpenAI開始拼情商

    OpenAI正式上線了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網(wǎng)友實(shí)測(cè)發(fā)現(xiàn)OpenAI新發(fā)布的GPT-5.1大
    的頭像 發(fā)表于 11-13 15:49 ?707次閱讀

    3萬(wàn)字長(zhǎng)文!深度解析大語(yǔ)言模型LLM原理

    繼續(xù)追本溯源,與騰訊學(xué)堂合作撰寫本文,嘗試讓人人都能懂大語(yǔ)言模型的基礎(chǔ)原理。1、大語(yǔ)言模型簡(jiǎn)述截止到2025年“大模型”一般泛指“超大
    的頭像 發(fā)表于 09-02 13:34 ?3464次閱讀
    <b class='flag-5'>3</b>萬(wàn)字長(zhǎng)文!深度解析大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>LLM原理

    谷歌AI模型點(diǎn)亮開發(fā)無(wú)限可能

    在 2025 年的 Google 谷歌開發(fā)者大會(huì)上,AI 不是一門“技術(shù)”,更是一股徹底改變開發(fā)范式的“力量”,助力開發(fā)者們?cè)诤M馐袌?chǎng)更上一層樓。AI 已經(jīng)不僅僅是生成幾行代碼,它正在
    的頭像 發(fā)表于 08-29 09:29 ?1149次閱讀

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬(wàn)TPS推理

    Token (TPS)。 這兩個(gè) gpt-oss 模型是具有鏈?zhǔn)剿季S和工具調(diào)用能力的文本推理大語(yǔ)言模型 (LLM),采用了廣受歡迎的混合專家模型
    的頭像 發(fā)表于 08-15 20:34 ?2310次閱讀
    NVIDIA從云到邊緣加速OpenAI <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,實(shí)現(xiàn)150萬(wàn)TPS推理

    OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價(jià)向美國(guó)政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語(yǔ)言模型GPT-5或?qū)l(fā)布。據(jù)外媒的報(bào)道,GPT-5很可能在周五凌晨發(fā)布。這是OpenAI在2023年的3
    的頭像 發(fā)表于 08-07 14:13 ?1.2w次閱讀

    ?Groq LPU 如何讓萬(wàn)億參數(shù)模型「飛」起來(lái)?揭秘 Kimi K2 40 倍提速背后的黑科技

    Groq LPU 如何讓萬(wàn)億參數(shù)模型「飛」起來(lái)?揭秘 Kimi K2 40 倍提速背后的黑科技? 最近,Moonshot AI 的千億參數(shù)模型 ?Kimi K2? 在 ?GroqCl
    的頭像 發(fā)表于 08-07 10:01 ?991次閱讀

    面向萬(wàn)億級(jí)參數(shù)模型,“超節(jié)點(diǎn)”涌現(xiàn)

    C UniPoD系列超節(jié)點(diǎn)產(chǎn)品,旨在為萬(wàn)億級(jí)參數(shù)模型的訓(xùn)練與推理提供更強(qiáng)勁、更智能且更綠色的算力支持。 ? H3C UniPoD系列超節(jié)點(diǎn)產(chǎn)品基于領(lǐng)先的Scale-up南向互聯(lián)技術(shù),
    的頭像 發(fā)表于 08-03 02:37 ?8921次閱讀
    面向<b class='flag-5'>萬(wàn)億</b>級(jí)<b class='flag-5'>參數(shù)</b>大<b class='flag-5'>模型</b>,“超節(jié)點(diǎn)”涌現(xiàn)

    萬(wàn)億參數(shù)!元腦企智一體機(jī)率先支持Kimi K2大模型

    應(yīng)用大模型提供高處理性能和完善的軟件工具平臺(tái)支持。 ? Kimi K2是月之暗面推出的開源萬(wàn)億參數(shù)模型,創(chuàng)新使用了MuonClip優(yōu)化器進(jìn)行訓(xùn)練,大幅提升了
    的頭像 發(fā)表于 07-22 09:27 ?566次閱讀
    <b class='flag-5'>萬(wàn)億</b><b class='flag-5'>參數(shù)</b>!元腦企智一體機(jī)率先支持Kimi K2大<b class='flag-5'>模型</b>

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語(yǔ)言模型

    在當(dāng)今人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)的開發(fā)已經(jīng)成為一個(gè)熱門話題。這些模型通過(guò)學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語(yǔ)言文本,完成各種復(fù)雜的任
    的頭像 發(fā)表于 04-30 18:34 ?1319次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) LLM<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    的詳細(xì)解析: 1. 核心組成與工作原理 視覺(jué)編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺(jué)Transformer(ViT)。 語(yǔ)言模型 :處理文本輸入/輸出,如GPT、BERT等,部分
    的頭像 發(fā)表于 03-17 15:32 ?8891次閱讀
    ?VLM(視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>)?詳細(xì)解析