亚洲特大黄片亚洲AV一级片 ,亚洲成人av免费观看,一区二区三区高清无码

【導讀】AI理論再進一步，破解ChatGPT指日可待？

Transformer架構已經(jīng)橫掃了包括自然語言處理、計算機視覺、語音、多模態(tài)等多個領域，不過目前只是實驗效果非常驚艷，對Transformer工作原理的相關研究仍然十分有限。

其中最大謎團在于，Transformer為什么僅依靠一個「簡單的預測損失」就能從梯度訓練動態(tài)（gradient training dynamics）中涌現(xiàn)出高效的表征？

最近田淵棟博士公布了團隊的最新研究成果，以數(shù)學嚴格方式，分析了1層Transformer（一個自注意力層加一個解碼器層）在下一個token預測任務上的SGD訓練動態(tài)。

論文鏈接：https://arxiv.org/abs/2305.16380

這篇論文打開了自注意力層如何組合輸入token動態(tài)過程的黑盒子，并揭示了潛在的歸納偏見的性質。

具體來說，在沒有位置編碼、長輸入序列、以及解碼器層比自注意力層學習更快的假設下，研究人員證明了自注意力就是一個判別式掃描算法（discriminative scanning algorithm）：

從均勻分布的注意力（uniform attention）開始，對于要預測的特定下一個token，模型逐漸關注不同的key token，而較少關注那些出現(xiàn)在多個next token窗口中的常見token

對于不同的token，模型會逐漸降低注意力權重，遵循訓練集中的key token和query token之間從低到高共現(xiàn)的順序。

有趣的是，這個過程不會導致贏家通吃，而是由兩層學習率控制的相變而減速，最后變成（幾乎）固定的token組合，在合成和真實世界的數(shù)據(jù)上也驗證了這種動態(tài)。

田淵棟博士是Meta人工智能研究院研究員、研究經(jīng)理，圍棋AI項目負責人，其研究方向為深度增強學習及其在游戲中的應用，以及深度學習模型的理論分析。先后于2005年及2008年獲得上海交通大學本碩學位，2013年獲得美國卡耐基梅隆大學機器人研究所博士學位。

曾獲得2013年國際計算機視覺大會（ICCV）馬爾獎提名（Marr Prize Honorable Mentions），ICML2021杰出論文榮譽提名獎。

曾在博士畢業(yè)后發(fā)布《博士五年總結》系列，從研究方向選擇、閱讀積累、時間管理、工作態(tài)度、收入和可持續(xù)的職業(yè)發(fā)展等方面對博士生涯總結心得和體會。

揭秘1層Transformer

基于Transformer架構的預訓練模型通常只包括非常簡單的監(jiān)督任務，比如預測下一個單詞、填空等，但卻可以為下游任務提供非常豐富的表征，實在是令人費解。

之前的工作雖然已經(jīng)證明了Transformer本質上就是一個通用近似器（universal approximator），但之前常用的機器學習模型，比如kNN、核SVM、多層感知機等其實也是通用近似器，這種理論無法解釋這兩類模型在性能上的巨大差距。

研究人員認為，了解Transformer的訓練動態(tài)（training dynamics）是很重要的，也就是說，在訓練過程中，可學習參數(shù)是如何隨時間變化的。

文章首先以嚴謹數(shù)學定義的方式，形式化描述了1層無位置編碼Transformer的SGD在下一個token預測（GPT系列模型常用的訓練范式）上的訓練動態(tài)。

1層的Transformer包含一個softmax自注意力層和預測下一個token的解碼器層。

在假設序列很長，而且解碼器的學習速度比自注意力層快的情況下，證明了訓練期間自注意力的動態(tài)行為：

1. 頻率偏差Frequency Bias

模型會逐漸關注那些與query token大量共現(xiàn)的key token，而對那些共現(xiàn)較少的token降低注意力。

2. 判別偏差Discrimitive Bias

模型更關注那些在下一個要預測的token中唯一出現(xiàn)的獨特token，而對那些在多個下一個token中出現(xiàn)的通用token失去興趣。

這兩個特性表明，自注意力隱式地運行著一種判別式掃描（discriminative scanning）的算法，并存在歸納偏差（inductive bias），即偏向于經(jīng)常與query token共同出現(xiàn)的獨特的key token

此外，雖然自注意力層在訓練過程中趨向于變得更加稀疏，但正如頻率偏差所暗示的，模型因為訓練動態(tài)中的相變（phase transition），所以不會崩潰為獨熱（one hot）。

學習的最后階段并沒有收斂到任何梯度為零的鞍點，而是進入了一個注意力變化緩慢的區(qū)域（即隨時間變化的對數(shù)），并出現(xiàn)參數(shù)凍結和學會（learned）。

研究結果進一步表明，相變的開始是由學習率控制的：大的學習率會產(chǎn)生稀疏的注意力模式，而在固定的自注意力學習率下，大的解碼器學習率會導致更快的相變和密集的注意力模式。

研究人員將工作中發(fā)現(xiàn)的SGD動態(tài)命名為掃描（scan）和snap：

掃描階段：自注意力集中在key tokens上，即不同的、經(jīng)常與下一個預測token同時出現(xiàn)的token；其他所有token的注意力都下降。

snap階段：注意力全中幾乎凍結，token組合固定。

這一現(xiàn)象在簡單的真實世界數(shù)據(jù)實驗中也得到驗證，使用SGD在WikiText上訓練的1層和3層Transformer的最低自注意力層進行觀察，可以發(fā)現(xiàn)即使在整個訓練過程中學習率保持不變，注意力也會在訓練過程中的某一時刻凍結，并變得稀疏。
責任編輯：彭菁

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

Transformer

Transformer

+關注

關注
0

文章
156

瀏覽量
6937
自然語言

自然語言

+關注

關注
1

文章
292

瀏覽量
13989
ChatGPT

ChatGPT

+關注

關注
31

文章
1598

瀏覽量
10272

原文標題：田淵棟新作：打開1層Transformer黑盒，注意力機制沒那么神秘！

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

Transformer在下一個token預測任務上的SGD訓練動態(tài)

評論