欧美一区免费在线观看,无码高清日本亚洲专区无码

古諺道：“熟讀唐詩(shī)三百首，不會(huì)作詩(shī)也會(huì)吟。” 這句話放在目前的人工智能語言模型中也非常適用。

此前，OpenAI 的研究人員開發(fā)出 “GPT-3”，這是一個(gè)由 1750 億個(gè)參數(shù)組成的 AI 語言模型，堪稱有史以來訓(xùn)練過的最大的語言模型，可以進(jìn)行原始類比、生成配方、甚至完成基本代碼編寫。

如今，這一記錄被打破了。近日，谷歌研究人員開發(fā)出一個(gè)新的語言模型，它包含了超過 1.6 萬億個(gè)參數(shù)，這是迄今為止最大規(guī)模的人工智能語言模型，比之前谷歌開發(fā)的語言模型 T5-XXL 的規(guī)模大了 4 倍。

參數(shù)是機(jī)器學(xué)習(xí)算法的關(guān)鍵所在，它們是從歷史訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的模型的一部分。一般而言，在語言領(lǐng)域中參數(shù)的數(shù)量和復(fù)雜度之間的相關(guān)性非常好。這一點(diǎn)類似于 GPU 中晶體管的數(shù)量，在同樣的制程工藝下，晶體管越多其算力便越強(qiáng)，而語言模型包含的參數(shù)愈多就愈接近人類自然語言。

正如研究人員在一篇論文中指出的那樣，大規(guī)模的訓(xùn)練是通向強(qiáng)大模型的有效途徑，在大數(shù)據(jù)集和參數(shù)計(jì)數(shù)的支持下，簡(jiǎn)單的體系結(jié)構(gòu)遠(yuǎn)遠(yuǎn)超過了更復(fù)雜的算法。但是，有效的大規(guī)模培訓(xùn)在計(jì)算上非常密集。這就是為什么研究人員熱衷于他們所說的 “開關(guān)變壓器”，這是一種 “稀疏激活” 技術(shù)，它只使用模型權(quán)重的一個(gè)子集或者在模型中轉(zhuǎn)換輸入數(shù)據(jù)的參數(shù)。

“開關(guān)變壓器” 是早在 90 年代初首次提出的一種人工智能模型范例，大體意思是將多個(gè)專家或?qū)ｉT處理不同任務(wù)的模型放在一個(gè)更大的模型中，并有一個(gè) “門控網(wǎng)絡(luò)” 來選擇為任何給定數(shù)據(jù)咨詢哪些專家。

在一項(xiàng)實(shí)驗(yàn)中，研究人員使用 32 個(gè) TPU 內(nèi)核對(duì)幾個(gè)不同的 “開關(guān)變壓器” 模型進(jìn)行了預(yù)訓(xùn)練，這些 TPU 內(nèi)核位于一個(gè)從 Reddit、Wikipedia 和其他網(wǎng)絡(luò)資源中搜集的 750GB 大小的文本數(shù)據(jù)語料庫(kù)中，任務(wù)則是讓這些模型預(yù)測(cè)段落中 15% 的單詞被遮住的缺失單詞，以及其他挑戰(zhàn)，比如檢索文本來回答一系列越來越難的問題。

研究人員稱，包含了 1.6 萬億參數(shù)和 2048 名專家的模型 Switch-C 顯示 “完全沒有訓(xùn)練不穩(wěn)定性”。然而，在桑福德問答數(shù)據(jù)集的基準(zhǔn)測(cè)試中，Switch-C 的得分居然比僅包含 3950 億個(gè)參數(shù)和 64 名專家的模型 Switch-XXL 還要低一點(diǎn)，對(duì)此，研究人員認(rèn)為是因?yàn)槲⒄{(diào)質(zhì)量、計(jì)算要求和參數(shù)數(shù)量之間的不透明關(guān)系所致。

在這種情況下，“開關(guān)變壓器” 導(dǎo)致了一些下游任務(wù)的收益。例如，研究人員稱在使用相同數(shù)量的計(jì)算資源的情況下，它可以使訓(xùn)練前的加速速度提高 7 倍以上。他們還證明 “稀疏激活” 技術(shù)可以用來創(chuàng)建更小、更密集的模型，這些模型可以對(duì)任務(wù)進(jìn)行微調(diào)，其質(zhì)量增益為大型模型的 30%。

對(duì)此他們表示：雖然這項(xiàng)工作主要集中在超大模型上，但我們也發(fā)現(xiàn)只有兩名專家的模型可以提高性能，同時(shí)很容易適應(yīng)通用 GPU 或 TPU 的內(nèi)存限制。另外，通過將稀疏模型提取為稠密模型，可以實(shí)現(xiàn) 10 到 100 倍的壓縮率，同時(shí)獲得專家模型約 30% 的質(zhì)量增益。

在另一個(gè)測(cè)試中，“開關(guān)變壓器” 模型被訓(xùn)練在 100 多種不同語言之間進(jìn)行翻譯，研究人員觀察到 101 種語言的 “普遍改善”，91% 的語言受益于比基線模型快 4 倍以上的速度。未來，研究人員還計(jì)劃將 “開關(guān)變壓器” 應(yīng)用于新的領(lǐng)域，比如圖像和文本。他們認(rèn)為，模型稀疏性可以賦予優(yōu)勢(shì)，在一系列不同的媒體以及多模態(tài)模型。

美中不足的是，研究人員的工作沒有考慮到這些語言模型在現(xiàn)實(shí)世界中的影響，比如模型通常會(huì)放大一些公開數(shù)據(jù)中的偏見。對(duì)此，OpenAI 公司指出，這可能導(dǎo)致在女性代詞附近放置 “淘氣”；而在 “恐怖主義” 等詞附近放置 “伊斯蘭” 等。根據(jù)米德爾伯里國(guó)際研究所的說法，這種偏見可能被惡意行為者利用，通過散布錯(cuò)誤信息、造謠和謊言來煽動(dòng)不和。

而路透社也曾報(bào)道稱，谷歌的研究人員現(xiàn)在被要求在研究人臉和情緒分析以及種族分類等話題之前，先咨詢法律、政策和公關(guān)團(tuán)隊(duì)，性別或政治派別。

綜上所述，盡管谷歌訓(xùn)練的 1.6 萬億參數(shù)的人工智能語言模型還沒辦法做到真正意義上的人工智能，存在一些不足之處需要完善和優(yōu)化，但隨著在摩爾定律下電子設(shè)備算力的不斷提升，近些年 AI 語言模型參數(shù)量級(jí)呈指數(shù)倍發(fā)展，相信在不久的將來，或許真的會(huì)出現(xiàn)一個(gè)無限接近熟讀人類歷史所有文明記錄的超級(jí)模型，能夠和人類完全實(shí)現(xiàn)自然語言交流，不妨讓我們好好期待一下吧！

原文標(biāo)題：GPT-3記錄被打破！谷歌推出1.6萬億參數(shù)的人工智能語言模型

文章出處：【微信公眾號(hào)：DeepTech深科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴