精工厂网站一级A片,国产顶级黄色日逼,成人动漫视频免费看一区二三区

fr9mC79C_Egah.png?auth_key=1676217599-0-0-046f13c6b339c4c10103d4508d036404

百度 | Bard | Chat GPT

谷歌 | RLHF|ERNIE Bot

隨著深度學(xué)習(xí)、高性能計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)挖掘、LLM、PPO、NLP等技術(shù)的快速發(fā)展，Chat GPT得到快速發(fā)展。Chat GPT是OpenAI開發(fā)的大型預(yù)訓(xùn)練語言模型，GPT-3模型的一個(gè)變體，經(jīng)過訓(xùn)練可以在對(duì)話中生成類似人類的文本響應(yīng)。

為了占據(jù)ChatGPT市場(chǎng)的有利地位，百度谷歌等巨頭公司也在運(yùn)籌帷幄，不斷發(fā)展。

作為國內(nèi)液冷服務(wù)器知名廠商，藍(lán)海大腦Chat GPT深度學(xué)習(xí)一體機(jī)實(shí)現(xiàn)了軟硬協(xié)同的深度優(yōu)化，在分布式存儲(chǔ)加速、智能網(wǎng)絡(luò)加速等關(guān)鍵性技術(shù)上取得重要突破，提供更加出色的云系統(tǒng)性能。采用NVMe專屬定制的加速引擎，發(fā)揮NVMe極致性能，全棧的數(shù)據(jù)傳輸通道實(shí)現(xiàn)分布式存儲(chǔ)副本數(shù)據(jù)傳輸零損耗。同時(shí)，升級(jí)智能網(wǎng)絡(luò)引擎，通過更多類型網(wǎng)卡進(jìn)行虛擬化調(diào)度，釋放CPU性能，可以使計(jì)算資源節(jié)約最多達(dá)90%，網(wǎng)絡(luò)轉(zhuǎn)發(fā)速率提高數(shù)倍，進(jìn)一步提升平臺(tái)性能深受廣大Chat GPT 工作者的喜愛。

PJn5k3tW_tux4.jpg?auth_key=1676217599-0-0-154ac82bc2934f3f452f3867d4ba0419

深度學(xué)習(xí)一體機(jī)

ChatGPT的訓(xùn)練過程

在整體技術(shù)路線上，Chat GPT引入了“手動(dòng)標(biāo)注數(shù)據(jù)+強(qiáng)化學(xué)習(xí)”(RLHF，從人的反饋進(jìn)行強(qiáng)化學(xué)習(xí))來不斷Fine-tune預(yù)訓(xùn)練語言模型。主要目的是讓LLM模型學(xué)會(huì)理解人類命令的含義(比如寫一篇短文生成問題、知識(shí)回答問題、頭腦風(fēng)暴問題等不同類型的命令)，讓LLM學(xué)會(huì)判斷對(duì)于給定的提示輸入指令(用戶的問題)什么樣的回答是優(yōu)質(zhì)的(富含信息、內(nèi)容豐富、對(duì)用戶有幫助、無害、不包含歧視信息等多種標(biāo)準(zhǔn))。

在“人工標(biāo)注數(shù)據(jù)+強(qiáng)化學(xué)習(xí)”的框架下，具體來說，Chat GPT的訓(xùn)練過程分為以下三個(gè)階段:

一、第一階段：監(jiān)督調(diào)優(yōu)模型

就 GPT 3.5 本身而言，雖然功能強(qiáng)大，但很難理解不同類型人類的不同指令所體現(xiàn)的不同意圖，也很難判斷生成的內(nèi)容是否是高質(zhì)量的結(jié)果。為了讓GPT 3.5初步理解指令中包含的意圖，將隨機(jī)選擇一批測(cè)試用戶提交的prompt（即指令或問題），由專業(yè)標(biāo)注人員對(duì)指定指令提供高質(zhì)量的答案，然后專業(yè)人員標(biāo)注數(shù)據(jù)對(duì)GPT 3.5模型進(jìn)行微調(diào)。通過這個(gè)過程，可以假設(shè) GPT 3.5 最初具有理解人類命令中包含的意圖并根據(jù)這些意圖提供相對(duì)高質(zhì)量答案的能力。

第一階段的首要任務(wù)是通過收集數(shù)據(jù)以訓(xùn)練監(jiān)督的策略模型。

數(shù)據(jù)采集：選擇提示列表，要求標(biāo)注者寫出預(yù)期結(jié)果。Chat GPT 使用兩種不同的prompt 來源：一些是直接使用注釋者或研究人員生成的，另一些是從 OpenAI 的API 請(qǐng)求（即來自 GPT-3 用戶）獲得的。盡管整個(gè)過程緩慢且昂貴，但最終結(jié)果是一個(gè)相對(duì)較小的高質(zhì)量數(shù)據(jù)集（大概有 12-15k 個(gè)數(shù)據(jù)點(diǎn)），可用于調(diào)整預(yù)訓(xùn)練語言模型。

模型選擇：Chat GPT 開發(fā)人員從 GPT-3.5 套件中選擇預(yù)訓(xùn)練模型，而不是對(duì)原始 GPT-3 模型進(jìn)行微調(diào)。使用的基礎(chǔ)模型是最新版本的text-davinci-003（用程序代碼調(diào)優(yōu)的GPT-3模型）。

eBrMQUqd_mevg.png?auth_key=1676217599-0-0-96ad9ba1301e22edea89361bc177d62e

二、第二階段：訓(xùn)練回報(bào)模型

這個(gè)階段的主要目標(biāo)是通過手動(dòng)標(biāo)注訓(xùn)練數(shù)據(jù)來訓(xùn)練回報(bào)模型。具體是隨機(jī)抽取用戶提交的請(qǐng)求prompt（大部分與第一階段相同），使用第一階段Enhancement的冷啟動(dòng)模型。對(duì)于每個(gè)prompt，冷啟動(dòng)模型都會(huì)生成K個(gè)不同的答案，所以模型會(huì)生成數(shù)據(jù), ....。之后，標(biāo)注者根據(jù)各種標(biāo)準(zhǔn)（上述的相關(guān)性、富含信息性、有害信息等諸多標(biāo)準(zhǔn)）對(duì)X個(gè)結(jié)果進(jìn)行排序，并指定X個(gè)結(jié)果的排名順序，這就是這個(gè)階段人工標(biāo)注的數(shù)據(jù)。

接下來，使用這個(gè)排名結(jié)果數(shù)據(jù)來訓(xùn)練回報(bào)模型。使用的訓(xùn)練方式實(shí)際上是常用的pair-wise learning to rank。對(duì)于 X 排序結(jié)果，兩兩組合起來形成一個(gè)訓(xùn)練數(shù)據(jù)對(duì)，ChatGPT 使用 pair-wise loss 來訓(xùn)練 Reward Model。RM 模型將作為輸入，并提供獎(jiǎng)勵(lì)分?jǐn)?shù)來評(píng)估答案的質(zhì)量。對(duì)于一對(duì)訓(xùn)練數(shù)據(jù)，假設(shè) answer1 排在 answer2 之前，那么Loss函數(shù)驅(qū)動(dòng) RM 模型比其他得分更高。

總結(jié)一下：在這個(gè)階段，首先冷啟動(dòng)后的監(jiān)控策略模型對(duì)每個(gè)prompt生成X個(gè)結(jié)果，并根據(jù)結(jié)果的質(zhì)量從高到低排序，并作為訓(xùn)練數(shù)據(jù)，通過pair-wise learning to rank模式來訓(xùn)練回報(bào)模型。對(duì)于學(xué)好的 RM 模型來說，輸入，并輸出結(jié)果質(zhì)量分?jǐn)?shù)。分?jǐn)?shù)越高，答案的質(zhì)量就越高。其工作原理是：

選擇prompt列表，SFT 模型為每個(gè)命令生成多個(gè)輸出（4 到 9 之間的任何值）；

標(biāo)注者從最好到最差對(duì)輸出進(jìn)行排名。結(jié)果是一個(gè)新標(biāo)記的數(shù)據(jù)集，其大小大約是用于 SFT 模型的確切數(shù)據(jù)集的 10 倍；

此新數(shù)據(jù)用于訓(xùn)練 RM 模型。該模型將 SFT 模型的輸出作為輸入，并按優(yōu)先順序?qū)λ鼈冞M(jìn)行排序。

K7fdgWC8_Zg5P.png?auth_key=1676217599-0-0-4b1623119408f5abe5e34e9cc238c924

三、第三階段：使用 PPO 模型微調(diào) SFT 模型

本階段不需要人工標(biāo)注數(shù)據(jù)，而是利用上一階段學(xué)習(xí)的RM模型，根據(jù)RM打分結(jié)果更新預(yù)訓(xùn)練模型參數(shù)。具體來說，首先從用戶提交的prompt中隨機(jī)選擇一批新的指令（指的是不同于第一階段和第二階段的新提示），PPO模型參數(shù)由冷啟動(dòng)模型初始化。然后對(duì)于隨機(jī)選取的prompt，使用PPO模型生成答案，使用前一階段訓(xùn)練好的RM模型，提供一個(gè)評(píng)價(jià)答案質(zhì)量的獎(jiǎng)勵(lì)分?jǐn)?shù)，即RM對(duì)所有答案給出的整體reward。有了單詞序列的最終回報(bào)，每個(gè)詞可以看作一個(gè)時(shí)間步長，reward從后向前依次傳遞，由此產(chǎn)生的策略梯度可以更新PPO模型的參數(shù)。這是一個(gè)標(biāo)準(zhǔn)化的強(qiáng)化學(xué)習(xí)過程，目標(biāo)是生成符合 RM 標(biāo)準(zhǔn)的高質(zhì)量答案。

如果我們不斷重復(fù)第二和第三階段，很明顯每次迭代都會(huì)讓 LLM 模型變得越來越強(qiáng)大。因?yàn)樵诘诙A段，RM模型的能力通過人工標(biāo)注數(shù)據(jù)得到增強(qiáng)，而在第三階段，增強(qiáng)的RM模型更準(zhǔn)確地評(píng)估新prompt生成的答案，并使用強(qiáng)化學(xué)習(xí)來鼓勵(lì)LLM模型學(xué)習(xí)新的高質(zhì)量內(nèi)容，這類似于使用偽標(biāo)簽來擴(kuò)展高質(zhì)量的訓(xùn)練數(shù)據(jù)，從而進(jìn)一步增強(qiáng)LLM模型。顯然，第二階段和第三階段相輔相成，這就是為什么連續(xù)迭代的效果會(huì)越來越大。

不過小編認(rèn)為，在第三階段實(shí)施強(qiáng)化學(xué)習(xí)策略并不一定是Chat GPT模型如此出色的主要原因。假設(shè)第三階段不使用強(qiáng)化學(xué)習(xí)，而是采用如下方法：與第二階段類似，對(duì)于一個(gè)新的prompt，冷啟動(dòng)模型可能會(huì)生成X個(gè)答案，由RM模型打分。我們選擇得分最高的答案組成新的訓(xùn)練數(shù)據(jù)，進(jìn)入fine-tune LLM模型。假設(shè)換成這種模式，相信效果可能會(huì)比強(qiáng)化學(xué)習(xí)更好。雖然沒那么精致，但效果不一定差很多。不管第三階段采用哪種技術(shù)模型，本質(zhì)上很可能是利用第二階段學(xué)會(huì)的RM，從LLM模型中擴(kuò)展出高質(zhì)量的訓(xùn)練數(shù)據(jù)。

以上是Chat GPT訓(xùn)練過程。這是一個(gè)改進(jìn)的 instruct GPT。改進(jìn)主要是標(biāo)注數(shù)據(jù)收集方法上的一些差異。其他方面，包括模型結(jié)構(gòu)和訓(xùn)練過程，基本遵循instruct GPT。估計(jì)這種Reinforcement Learning from Human Feedback技術(shù)會(huì)很快擴(kuò)散到其他內(nèi)容創(chuàng)作方向，比如一個(gè)很容易想到的方向，類似“A machine translation model based on Reinforcement Learning from Human Feedback”等。不過個(gè)人認(rèn)為在NLP的內(nèi)容生成的特定領(lǐng)域采用這項(xiàng)技術(shù)并不是很重要，因?yàn)镃hat GPT本身可以處理很多不同類型的任務(wù)，基本上涵蓋了NLP產(chǎn)生的很多子領(lǐng)域。因此，對(duì)于NLP的某些細(xì)分領(lǐng)域，單獨(dú)使用這項(xiàng)技術(shù)的價(jià)值并不大，其可行性可以認(rèn)為是經(jīng)過Chat GPT驗(yàn)證的。如果將該技術(shù)應(yīng)用到其他模式的創(chuàng)作中，比如圖像、音頻、視頻等，這或許是一個(gè)值得探索的方向。可能很快就會(huì)看到類似“A XXX diffusion model based on Reinforcement Learning from Human Feedback”之類的內(nèi)容。

EFJm39VX_LteZ.png?auth_key=1676217599-0-0-c4876568e13dee2a774d1ea9990ecc65

Chat GPT的不足之處

盡管Chat GPT好評(píng)如潮且商家采用率不斷提高，但仍然存在許多缺點(diǎn)。

一、回答缺少連貫性

因?yàn)镃hat GPT只能基于上文且記憶力差，傾向于忘記一些重要的信息。研究人員正在開發(fā)一種 AI，可以在預(yù)測(cè)文本中的下一個(gè)字母時(shí)查看短期和長期特征。這種策略稱為卷積。使用卷積的神經(jīng)網(wǎng)絡(luò)可以跟蹤足夠長的信息以保持主題。

二、有時(shí)會(huì)存在偏見

因?yàn)?Chat GPT 訓(xùn)練數(shù)據(jù)集是文本，反映了人類的世界觀，這不可避免地包含了人類的偏見。如果企業(yè)使用 Chat GPT 撰寫電子郵件、文章、論文等無需人工審核，則法律和聲譽(yù)風(fēng)險(xiǎn)會(huì)很大。例如，帶有種族偏見的文章可能會(huì)產(chǎn)生重大后果。

Facebook 的 AI 負(fù)責(zé)人 Jerome Pesenti 使用 Kumar的 GPT-3 生成的推文來展示輸出如何根據(jù)需要使用“猶太人、黑人、女性或大屠殺”等詞，其輸出可能會(huì)變得多么危險(xiǎn)。Kumar 認(rèn)為這些推文是精心挑選的，Pesenti 同意，但回應(yīng)說“產(chǎn)生種族主義和性別歧視的輸出不應(yīng)該那么容易，尤其是在中立的情況下?！?/p>

另外，對(duì)GPT-3文章的評(píng)價(jià)也有失偏頗。人類寫作文本的風(fēng)格會(huì)因文化和性別而有很大差異。如果 GPT-3 在沒有校對(duì)的情況下對(duì)論文進(jìn)行評(píng)分，GPT-3 論文評(píng)分者可能會(huì)給學(xué)生更高的評(píng)分，因?yàn)樗麄兊膶懽黠L(fēng)格在訓(xùn)練數(shù)據(jù)中更為普遍。

三、對(duì)事實(shí)理解能力較弱

Chat GPT不能從事實(shí)的角度區(qū)分是非。例如，Chat GPT 可能會(huì)寫一個(gè)關(guān)于獨(dú)角獸的有趣故事，但 Chat GPT 可能不了解獨(dú)角獸到底是什么。

四、錯(cuò)誤信息/虛假新聞

Chat GPT可能會(huì)創(chuàng)作逼真的新聞或評(píng)論文章，這些文章可能會(huì)被壞人利用來生成虛假信息，例如虛假故事、虛假通訊或冒充社交媒體帖子，以及帶有偏見或辱罵性的語言?；蚶]件、網(wǎng)絡(luò)釣魚、欺詐性學(xué)術(shù)論文寫作、煽動(dòng)極端主義和社會(huì)工程借口。Chat GPT 很容易成為強(qiáng)大宣傳機(jī)器的引擎。

五、不適合高風(fēng)險(xiǎn)類別

OpenAI 聲明該系統(tǒng)不應(yīng)該用于“高風(fēng)險(xiǎn)類別”，例如醫(yī)療保健。在 Nabra 的博客文章中，作者證實(shí) Chat GPT 可以提供有問題的醫(yī)療建議，例如“自殺是個(gè)好主意”。Chat GPT 不應(yīng)在高風(fēng)險(xiǎn)情況下使用，因?yàn)楸M管有時(shí)它給出的結(jié)果可能是正確的，但有時(shí)會(huì)給出錯(cuò)誤的答案。在這個(gè)領(lǐng)域，正確處理事情是生死攸關(guān)的問題。

六、有時(shí)產(chǎn)生無用信息

因?yàn)?Chat GPT 無法知道哪些輸出是正確的，哪些是錯(cuò)誤的，并且無法阻止自己向世界傳播不適當(dāng)?shù)膬?nèi)容。使用此類系統(tǒng)生成的內(nèi)容越多，互聯(lián)網(wǎng)上產(chǎn)生的內(nèi)容污染就越多。在互聯(lián)網(wǎng)上尋找真正有價(jià)值的信息變得越來越困難。由于語言模型發(fā)出未經(jīng)檢查的話語，可能正在降低互聯(lián)網(wǎng)內(nèi)容的質(zhì)量，使人們更難獲得有價(jià)值的知識(shí)。

谷歌、百度應(yīng)對(duì)OpenAI所采取的措施

近日，Chat GPT聊天機(jī)器人風(fēng)靡全球，轟動(dòng)一時(shí)。這些AI產(chǎn)品是眾多大廠競相競爭的對(duì)象。2月7日消息，據(jù)外媒報(bào)道，當(dāng)?shù)貢r(shí)間周一，谷歌公布了Chat GPT的競爭對(duì)手Bard，一款人工智能聊天機(jī)器人工具。此外，百度計(jì)劃在今年 3 月推出類似于 Chat GPT OpenAI 的 AI 聊天機(jī)器人服務(wù)。

一、谷歌推出AI聊天機(jī)器人工具Bard

谷歌CEO桑達(dá)爾·皮查伊（Sundar Pichai）在一篇博文中宣布了該項(xiàng)目，將該工具描述為一種由LaMDA（谷歌開發(fā)的大型語言模型）支持的“實(shí)驗(yàn)性對(duì)話式人工智能服務(wù)”，將回答用戶問題并參與對(duì)話。

他還指出，Bard 能夠從網(wǎng)絡(luò)中提取最新信息以提供新鮮、高質(zhì)量的回復(fù)，這意味著 Bard 可能能夠以 Chat GPT 難以做到的方式回答有關(guān)近期事件的問題。

Pichai 表示，該軟件最初將開始面向可信任的測(cè)試人員開放，然后在未來幾周內(nèi)更廣泛地向公眾提供。目前尚不清楚 Bard 將具有哪些功能，但聊天機(jī)器人似乎將像美國人工智能研究公司 OpenAI 擁有的 Chat GPT 一樣免費(fèi)使用。

據(jù)悉，Chat GPT由OpenAI于2022年11月30日推出，Chat GPT可以根據(jù)用戶需求快速創(chuàng)作文章、故事、歌詞、散文、笑話，甚至代碼，并回答各種問題。Chat GPT一經(jīng)發(fā)布就在互聯(lián)網(wǎng)上掀起一股風(fēng)暴，并受到包括作家、程序員、營銷人員在內(nèi)的用戶以及其他公司的青睞。對(duì)于Chat GPT的走紅，Pichai在公司內(nèi)部發(fā)布了“紅色警報(bào)”，表示將在2023年圍繞Chat GPT全面適配谷歌在AI方面的工作。上周，皮查伊表示，谷歌將在未來幾周或幾個(gè)月內(nèi)推出自己的 AI 語言建模工具，類似于 Chat GPT。

fvhtUYPt_ZhZF.png?auth_key=1676217599-0-0-24174ba08e56c746118bac155f0d2d6c

二、百度Chat GPT產(chǎn)品官宣確認(rèn)：文心一言3月完成內(nèi)測(cè)

值得注意的是，據(jù)外媒報(bào)道百度計(jì)劃在今年3月推出類似于Chat GPT OpenAI的人工智能聊天機(jī)器人服務(wù)。初始版本將嵌入其搜索服務(wù)中。目前，百度已確認(rèn)該項(xiàng)目名稱為文心一言，英文名稱為ERNIE Bot。內(nèi)部測(cè)試于 3 月結(jié)束，并向公眾開放。此時(shí)，文心一言正在做上線前的沖刺。

去年9月，百度CEO李彥宏判斷人工智能的發(fā)展“在技術(shù)層面和商業(yè)應(yīng)用層面都出現(xiàn)了方向性轉(zhuǎn)變”。據(jù)猜測(cè)百度那時(shí)候就開始做文心一言。按照谷歌和微軟的節(jié)奏，文心一言可能提前開啟內(nèi)測(cè)。

百度擁有 Chat GPT 相關(guān)技術(shù)，在四層人工智能架構(gòu)上（包括底層芯片、深度學(xué)習(xí)框架、大模型、頂級(jí)搜索應(yīng)用）進(jìn)行了全棧布局。文心一言位于模型層。百度深耕人工智能領(lǐng)域數(shù)十年，擁有產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)文心大模型ERNIE，具有跨模態(tài)、跨語言的深度語義理解和生成能力。

業(yè)內(nèi)人士分析，尤其是在自然語言處理領(lǐng)域，國內(nèi)絕對(duì)沒有一家公司能接近百度目前的水平。有專家提出Chat GPT是人工智能的一個(gè)里程碑，更是分水嶺，意味著AI技術(shù)的發(fā)展已經(jīng)到了一個(gè)臨界點(diǎn)，企業(yè)需要盡快落地。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴