ChatGPT 是 OpenAI 發(fā)布的最新語言模型,比其前身 GPT-3 有顯著提升。與許多大型語言模型類似,ChatGPT 能以不同樣式、不同目的生成文本,并且在準確度、敘述細節(jié)和上下文連貫性上具有更優(yōu)的表現(xiàn)。它代表了 OpenAI 最新一代的大型語言模型,并且在設計上非常注重交互性。
從官網(wǎng)介紹可以看到,ChatGPT與InstructGPT是同源的模型。
chatGPT是一種基于轉移學 習的大型語言模型,它使用GPT-2 (Generative PretrainedTransformer2)模型的技術,并進行了進一步的訓練和優(yōu)化。
GPT-2模型是一種基于注意力機制的神經網(wǎng)絡模型,它能夠處理序列建橫問題,如自然語言處理中的語言建模和機器翻譯。它使用了一種叫做transformer的架構, 它能夠通過自注意力機制來學習語言的結構和語義。GPT-2模型預先訓練了一個大型語料庫上,以便在實際應用中能夠更好地表現(xiàn)。
chatGPT是在GPT-2模型的基礎上進一步訓練和優(yōu)化而得到的。 它使用了更多的語料庫,并且進行了專門的訓練來提高在對話系統(tǒng)中的表現(xiàn)。這使得chatGPT能夠在對話中白然地回應用戶的輸入,并且能夠生成流暢、連貫、通順的文本。
那么接下來我們來看下什么是InstructGPT。從字面上來看,顧名思義,它就是指令式的GPT,“which is trained to follow an instruction in a prompt and provide a detailed response”。接下來我們來看下InstructGPT論文中的主要原理:

InstructGPT整體訓練流程
從該圖可以看出,InstructGPT是基于GPT-3模型訓練出來的,具體步驟如下:
步驟1.)從GPT-3的輸入語句數(shù)據(jù)集中采樣部分輸入,基于這些輸入,采用人工標注完成希望得到輸出結果與行為,然后利用這些標注數(shù)據(jù)進行GPT-3有監(jiān)督的訓練。該模型即作為指令式GPT的冷啟動模型。
步驟2.)在采樣的輸入語句中,進行前向推理獲得多個模型輸出結果,通過人工標注進行這些輸出結果的排序打標。最終這些標注數(shù)據(jù)用來訓練reward反饋模型。
步驟3.)采樣新的輸入語句,policy策略網(wǎng)絡生成輸出結果,然后通過reward反饋模型計算反饋,該反饋回過頭來作用于policy策略網(wǎng)絡。以此反復,這里就是標準的reinforcement learning強化學習的訓練框架了。
所以總結起來ChatGPT(對話GPT)其實就是InstructGPT(指令式GPT)的同源模型,然后指令式GPT就是基于GPT-3,先通過人工標注方式訓練出強化學習的冷啟動模型與reward反饋模型,最后通過強化學習的方式學習出對話友好型的ChatGPT模型。
InstructGPT的訓練實際上是分為三個階段的,第一階段就是我們上文所述,利用人工標注的數(shù)據(jù)微調GPT3;第二階段,需要訓練一個評價模型即Reward Model,該模型需學習人類對于模型回復的評價方式,對于給定的上文與生成回復給出分數(shù);第三階段,利用訓練好的Reward Model作為反饋信號,去指導GPT進一步進行微調,將目標設定為Reward分數(shù)最大化,從而使模型產生更加符合人類偏好的回復。
文章綜合CSDN、賽爾實驗室、 IT架構師聯(lián)盟
-
神經網(wǎng)絡
+關注
關注
42文章
4838瀏覽量
107732 -
OpenAI
+關注
關注
9文章
1245瀏覽量
10050 -
ChatGPT
+關注
關注
31文章
1598瀏覽量
10262
發(fā)布評論請先 登錄
LLM風口背后,ChatGPT的成本問題
基于ATM理念的UTRAN傳輸架構簡析
EPON技術簡析
筆記本屏幕亮度與反應速度簡析
簡析BGA封裝技術與質量控制
鼠標HID例程(中)簡析
簡析比較器的原理及應用資料下載
ChatGPT背后的原理簡析
評論