黄片免费观看不卡,欧美极品在线一区,毛片av无码网亚洲区一区

參數(shù)是機器學習算法的關(guān)鍵。它們是從歷史訓練數(shù)據(jù)中學到的模型的一部分。一般來說，在語言領(lǐng)域，參數(shù)的數(shù)量和復雜性之間的相關(guān)性非常好。例如，OpenAI的GPT-3是有史以來訓練了1750億個參數(shù)的最大語言模型之一，它可以進行原始類比、生成配方，甚至完成基本代碼。

近日，谷歌的研究人員開發(fā)了一種技術(shù)，并對其進行基準測試，他們聲稱這種技術(shù)能夠訓練包含超過一萬億參數(shù)的語言模型。他們表示，他們的1.6萬億參數(shù)模型是迄今為止最大的，比之前最大的谷歌開發(fā)的語言模型（T5-XXL）快了4倍。

研究人員指出，大規(guī)模訓練是建立強大模型的有效途徑。簡單的架構(gòu)，大數(shù)據(jù)集和參數(shù)計數(shù)的支持，超越了更復雜的算法。但是，大規(guī)模的訓練雖然有效，但計算強度極高。這就是為什么研究人員追求他們所謂的Switch?Transformer，一種“稀疏激活”技術(shù)，它只使用模型權(quán)重的子集，或轉(zhuǎn)換模型內(nèi)輸入數(shù)據(jù)的參數(shù)。

Switch?Transformer的新穎之處在于它有效地利用了為密集矩陣乘法（廣泛應(yīng)用于語言模型的數(shù)學運算）設(shè)計的硬件，如GPU和TPU。在研究人員的分布式訓練設(shè)置中，他們的模型將不同的權(quán)重分配到不同的設(shè)備上，這樣權(quán)重就會隨著設(shè)備數(shù)量的增加而增加，但在每個設(shè)備上都保持可管理的內(nèi)存和計算空間。

在一項實驗中，研究人員使用32個TPU內(nèi)核預(yù)先訓練了幾種不同的Switch?Transformer模型，這個語料是一個750GB大小的數(shù)據(jù)集，包含從Reddit、Wikipedia和其他網(wǎng)絡(luò)資源上獲取的文本。他們讓這些模型預(yù)測有15%的單詞被掩蓋的段落中遺漏的單詞，以及其他挑戰(zhàn)，比如檢索文本回答一系列越來越難的問題。

研究人員聲稱，與包含3950億個參數(shù)和64名專家的更小的模型（Switch-XXL）相比，他們發(fā)明的擁有2048名專家的1.6萬億參數(shù)模型（Switch-C）則“完全沒有訓練不穩(wěn)定性”。

然而，在SQuAD的基準測試上，Switch-C的得分卻更低（87.7），而Switch-XXL的得分為89.6，研究人員將此歸因于微調(diào)質(zhì)量、計算要求和參數(shù)數(shù)量之間的不明確關(guān)系。

在這種情況下，Switch?Transformer還是在許多下游任務(wù)上的效果有了提升。例如，在使用相同數(shù)量的計算資源的情況下，它可以使預(yù)訓練的速度提高了7倍以上。

同時研究人員證明，大型稀疏模型可以用來創(chuàng)建更小、更稠密的模型，這些模型可以對任務(wù)進行微調(diào)，其質(zhì)量增益只有大型模型的30%?。

在一個測試中，一個?Switch?Transformer?模型被訓練在100多種不同的語言之間進行翻譯，研究人員觀察到其中101種語言都得到了普遍的改善。

在未來的工作中，研究人員計劃將Switch?Transformer應(yīng)用于新的和不同的形態(tài)中去，包括圖像和文本。他們認為，模型稀疏性在一系列不同的媒體和多模態(tài)模型中都具有優(yōu)勢。
責任編輯:pj

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6254

瀏覽量
111371
機器學習

機器學習

+關(guān)注

關(guān)注
66

文章
8553

瀏覽量
136931
大數(shù)據(jù)

大數(shù)據(jù)

+關(guān)注

關(guān)注
64

文章
9062

瀏覽量
143743

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

谷歌訓練開發(fā)一個萬億參數(shù)的AI語言模型

評論