亚洲色图欧美色图成人动漫,偷拍导航网址在线看,亚洲秘无码一区二区三区胖子

繼GPT-3問(wèn)世僅僅不到一年的時(shí)間，Google重磅推出Switch Transformer，直接將參數(shù)量從GPT-3的1750億拉高到1.6萬(wàn)億，并比之前最大的、由google開發(fā)的語(yǔ)言模型T5-XXL足足快了4倍。

對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō)，參數(shù)可以算得上算法的關(guān)鍵：他們是歷史的輸入數(shù)據(jù)，經(jīng)過(guò)模型訓(xùn)練得來(lái)的結(jié)果，是模型的一部分。

一般來(lái)說(shuō)，在NLP領(lǐng)域，參數(shù)數(shù)量和復(fù)雜程度之間具有正相關(guān)性。

迄今為止，OpenAI 的 GPT-3是有史以來(lái)最大的語(yǔ)言模型之一，有1750億個(gè)參數(shù)。

現(xiàn)在，距離GPT-3問(wèn)世不到一年的時(shí)間，更大更復(fù)雜的語(yǔ)言模型又來(lái)了——

在對(duì)這種相關(guān)性進(jìn)行最全面測(cè)試的基礎(chǔ)上，谷歌的研究人員開發(fā)了一種能夠訓(xùn)練包含超過(guò)一萬(wàn)億參數(shù)的語(yǔ)言模型：Switch Transformer，并進(jìn)行了基準(zhǔn)測(cè)試。

他們表示，1.6萬(wàn)億參數(shù)模型是迄今為止最大的，并比之前最大的、由google開發(fā)的語(yǔ)言模型T5-XXL足足快了4倍。

圖：Switch 模型設(shè)計(jì)和預(yù)訓(xùn)練表現(xiàn)

研究人員在論文中表示，對(duì)于強(qiáng)大模型來(lái)說(shuō)，進(jìn)行大規(guī)模訓(xùn)練是一個(gè)非常有效的途徑。

盡管在大數(shù)據(jù)集和參數(shù)支撐下的簡(jiǎn)單的架構(gòu)可以超越一些復(fù)雜的算法，然而，高效且大規(guī)模的訓(xùn)練卻屬于極度的計(jì)算密集型。

而這，也正是Google的研究者發(fā)明Switch Transformer的原因。

圖：Switch Transformer編碼塊

Switch Transformer使用了一種叫做稀疏激活（sparsely ac tivated）的技術(shù)，這個(gè)技術(shù)只使用了模型權(quán)重的子集，或者是轉(zhuǎn)換模型內(nèi)輸入數(shù)據(jù)的參數(shù)，即可達(dá)成相同的效果。

此外，Switch Transformer還主要建立在混合專家（Mix of Expert）的基礎(chǔ)上。

圖：Token動(dòng)態(tài)路由示例

什么是“混合專家”呢？

混合專家（Mix of Expert，MoE）是90年代初首次提出的人工智能模型范式。

在MoE中，對(duì)于不同的輸入，會(huì)選擇不同的參數(shù)。多個(gè)專家（或者專門從事不同任務(wù)的模型）被保留在一個(gè)更大的模型中，針對(duì)任何給定的數(shù)據(jù)，由一個(gè)“門控網(wǎng)絡(luò)”來(lái)選擇咨詢哪些專家。

其結(jié)果是一個(gè)稀疏激活的模型——具有數(shù)量驚人的參數(shù)，但計(jì)算成本不變。然而，盡管MoE取得了一些顯著的成功，但其廣泛采用仍然受到復(fù)雜性、通信成本和訓(xùn)練不穩(wěn)定性的阻礙。而Switch Transformer則解決了這些問(wèn)題。

Switch Transformer的新穎之處，在于它有效地利用了為密集矩陣乘法(廣泛應(yīng)用于語(yǔ)言模型的數(shù)學(xué)運(yùn)算)設(shè)計(jì)的硬件，如GPU和谷歌的TPU。

圖：數(shù)據(jù)和權(quán)重劃分策略

在研究人員的分布式訓(xùn)練設(shè)置中，他們的模型將不同的權(quán)重分配到不同的設(shè)備上，因此，雖然權(quán)重會(huì)隨著設(shè)備數(shù)量的增加而增加，但是每個(gè)設(shè)備卻可以保持可管理的內(nèi)存和計(jì)算足跡。

在一項(xiàng)實(shí)驗(yàn)中，研究人員使用了32個(gè)TPU核，在“Colossal Clean Crawled Corpus”，也就是 C4 數(shù)據(jù)集上，預(yù)先訓(xùn)練了幾種不同的Switch Transformer模型。

C4是一個(gè)750gb大小的數(shù)據(jù)集，包含從Reddit、Wikipedia和其他web資源上獲取的文本。

研究人員讓這些Switch Transformer模型去預(yù)測(cè)有15%的單詞被掩蓋的段落中遺漏的單詞，除此之外，還為模型布置了許多其他挑戰(zhàn)，如檢索文本來(lái)回答一系列越來(lái)越難的問(wèn)題等等。

研究人員聲稱，和包含3950億個(gè)參數(shù)和64名專家的更小的模型(Switch-XXL)相比，他們發(fā)明的擁有2,048名專家的1.6萬(wàn)億參數(shù)模型(Switch-C)則“完全沒(méi)有訓(xùn)練不穩(wěn)定性”。

然而，在SQuAD的基準(zhǔn)測(cè)試上，Switch-C的得分卻更低(87.7)，而Switch-XXL的得分為89.6。

對(duì)此，研究人員將此歸因于微調(diào)質(zhì)量、計(jì)算要求和參數(shù)數(shù)量之間的不明確關(guān)系。

在這種情況下，Switch Transformer還是在許多下游任務(wù)上的效果有了提升。例如，根據(jù)研究人員的說(shuō)法，在使用相同數(shù)量的計(jì)算資源的情況下，它可以使預(yù)訓(xùn)練的速度提高了7倍以上。

圖：所有模型均在32個(gè)TPU上進(jìn)行訓(xùn)練

同時(shí)研究人員證明，大型稀疏模型可以用來(lái)創(chuàng)建更小、更稠密的模型，這些模型可以對(duì)任務(wù)進(jìn)行微調(diào)，其質(zhì)量增益只有大型模型的30% 。

在一個(gè)測(cè)試中，一個(gè) Switch Transformer 模型被訓(xùn)練在100多種不同的語(yǔ)言之間進(jìn)行翻譯，研究人員觀察到其中101種語(yǔ)言都得到了“普遍的改善”，91% 的語(yǔ)言受益于超過(guò)baseline模型4倍以上的速度。

圖：101種語(yǔ)言的多語(yǔ)言預(yù)訓(xùn)練

研究人員在論文中寫道: “雖然這項(xiàng)工作主要集中在超大型模型上，但我們也發(fā)現(xiàn)，只有兩個(gè)專家的模型能夠提高性能，同時(shí)很容易適應(yīng)常用 GPU 或 TPU 的內(nèi)存約束。”

“我們不能完全保證模型的質(zhì)量，但是通過(guò)將稀疏模型蒸餾成稠密模型，同時(shí)達(dá)到專家模型質(zhì)量增益的30%的情況下，是可以達(dá)到10到100倍壓縮率的?！?/p>

在未來(lái)的工作中，研究人員計(jì)劃將Switch Transformer應(yīng)用到新的和跨越不同的模態(tài)中去，包括圖像和文本。他們認(rèn)為，模型稀疏性可以賦予各種不同媒介以及多模態(tài)模型一些優(yōu)勢(shì)。

在論文的最后，Google的研究人員還表示：

總的來(lái)說(shuō)，Switch Transformers是一個(gè)可擴(kuò)展的，高效的自然語(yǔ)言學(xué)習(xí)模型。

通過(guò)簡(jiǎn)化MoE，得到了一個(gè)易于理解、易于訓(xùn)練的體系結(jié)構(gòu)，該結(jié)構(gòu)還比同等大小的密集模型具有更大的采樣效率。

這些模型在一系列不同的自然語(yǔ)言任務(wù)和不同的訓(xùn)練機(jī)制中，包括預(yù)訓(xùn)練、微調(diào)和多任務(wù)訓(xùn)練，都表現(xiàn)出色。

這些進(jìn)步使得使用數(shù)千億到萬(wàn)億參數(shù)訓(xùn)練模型成為可能，相對(duì)于密集的T5基準(zhǔn)，這些模型可以實(shí)現(xiàn)顯著的加速。

谷歌的研究人員表示，希望他們的工作能夠激勵(lì)稀疏模型成為一種有效的架構(gòu)，并鼓勵(lì)研究人員和實(shí)踐者在自然語(yǔ)言任務(wù)中考慮這些靈活的模型。

原文標(biāo)題：1.6萬(wàn)億參數(shù)，秒殺GPT-3！谷歌推出超級(jí)語(yǔ)言模型Switch Transformer，比T5快4倍

文章出處：【微信公眾號(hào)：人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴