91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用Megatron-CNTRL為語言模型添加外部知識和可控性

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-20 14:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大型語言模型,如 Megatron 和 GPT-3 正在改變人工智能。我們對能夠利用這些模型來創(chuàng)建更好的對話式人工智能的應用程序感到興奮。生成語言模型在會話式人工智能應用中存在的一個主要問題是缺乏可控制性和與真實世界事實的一致性。在這項工作中,我們試圖通過使我們的大型語言模型既可控又與外部知識庫保持一致來解決這個問題??s放語言模型提供了更高的流暢性、可控性和一致性。

story-generation-tree-2-2.png

圖 1 。故事是由外部知識庫中的模型進行調節(jié)而產生的,并由不同的關鍵詞如“駕駛”和“吸引”控制。

為了緩解一致性和可控性問題,已經做了幾次嘗試。 Guan et al.( 2020 年) 通過微調引入常識知識來解決一致性問題。然而,這種天真的方法缺乏可解釋性和靈活性,無法決定何時以及從外部知識庫中合并什么。

控制文本生成 的許多功能都是可取的。最近,人們開發(fā)了不同的方法來控制生成,例如 使用預先添加到模型輸入的控制代碼 和 以目標演員之前的談話為條件 。然而,這些控制條件是預先定義好的,并且其能力有限。它們缺乏控制粒度,比如在句子或子文檔級別。

我們通過允許在預先訓練的語言模型中動態(tài)地結合外部知識以及控制文本生成來解決這些缺點。我們利用了我們的 Megatron 項目 ,它的目標是在 GPU 集群上以光效的速度訓練最大的 transformer 語言模型。我們提出了一個新的生成框架,威震天 CNTRL ,它使得我們的大型威震天語言模型既可以控制,又可以使用外部知識庫保持一致。

通過 土耳其機器人 使用人類求值器,我們展示了縮放語言模型提供了更高的流暢性、可控性和一致性,從而產生更真實的生成。結果,高達 91 . 5% 的生成故事被新關鍵字成功控制,并且高達 93 . 0% 的故事在 ROC 故事數(shù)據(jù)集 上被評估為一致。我們預計這一趨勢將繼續(xù)下去,從而激勵人們繼續(xù)投資于為對話型人工智能培訓更大的模型。圖 1 顯示了生成過程的一個示例。

Megatron 控制框架

在問題設置中,我們用第一句話作為輸入來完成一個故事。我們使用外部知識庫來擴充生成過程,并開發(fā)出一種能夠指導和控制故事生成的方法。圖 2 顯示了框架由以下連接步驟組成:

在給定故事背景的情況下,關鍵詞預測模型首先預測下一個句子的關鍵詞集合。

然后,知識檢索器獲取生成的關鍵字并查詢外部知識庫,其中每個知識三元組使用模板轉換為自然語言“知識句子”。

一個語境知識 ranker 然后根據(jù)外部知識句與故事上下文的關聯(lián)程度對它們進行排序。

最后,一個生成器將故事語境以及排名第一的知識句作為輸入,生成故事中的下一句。輸出句子附加到故事上下文中,重復步驟 1-4 。

這個公式自然地允許通過用手動外部關鍵字代替關鍵字生成過程來控制。

poYBAGJfqM-ABKzAAACyYYUPtRE666.png

圖 2 。威震天控制:生成框架概述。

我們將關鍵詞生成建模為一個序列到序列的問題,它以故事上下文為輸入,輸出一系列關鍵字。我們使用 Megatron 模型(基于 GPT-2 )來生成關鍵字。知識檢索器是一個簡單的模型,它將關鍵字與知識庫相匹配。對于上下文知識 ranker ,我們首先構建偽標簽,通過嵌入一個名為 使用 的句子來找到與故事上下文最相關的知識。然后我們訓練一個來自 Megatron 模型的 ranker (基于 BERT ),對由知識檢索器過濾的知識進行排序。然后,排名靠前的知識被附加到故事上下文的末尾,作為來自 Megatron 模型的另一個條件生成器的輸入,以生成下一個故事句子。

實驗裝置

我們使用 ROC 故事數(shù)據(jù)集進行實驗。它由 98161 個故事組成,每個故事都包含五句話。按照 Guan et al.( 2020 年) ,對于每個句子,通過用特殊占位符替換故事中的所有名稱和實體來執(zhí)行去毒性。在每個故事的第一句話中,我們的模型的任務是生成故事的其余部分,對于外部知識庫,我們使用了由 600k 知識三倍組成的 概念網(wǎng) 。我們分別用 Megatron 對預雨前的 BERT 和 GPT-2 模型進行上下文知識 ranker 和生成模型的初始化。關鍵字預測器和條件句生成器都遵循相同的設置。

質量評價

我們用自動的困惑、故事重復和 4 克的標準來評價生成的故事的質量,以及人類對連貫性、連貫性和流利性的評價。將 Megatron-CNTRL-124M 模型與表 1 和圖 3 中的 Yao et al.( 2018 年) 進行比較,我們獲得了更高的 4 克、一致性、流利性和一致性分數(shù),這表明了大型預處理變壓器模型的好處。將 Megatron-CNTRL-124M 與 Guan et al.( 2020 年) (不可控)進行比較,該模型還使用了表 1 所示的基于 GPT-2 的模型,我們注意到,我們的模型具有明顯的更好的一致性(+ 7 . 0% )和一致性(+ 7 . 5% )。我們將這歸因于檢索到的知識的使用。通過明確提供與下一句相關的事實,條件生成模型可以集中于生成文本。

poYBAGJfqQGAIYNAAAAjt4Pk__w884.png

表 1 。評估了以前最先進的模型以及我們的算法在不同的大小。困惑,故事重復,和不同的 4-gram 被自動評估。

poYBAGJfqNWAOAoDAAA92cLucRs800.png

圖 3 。我們的模型和基線之間成對比較的人類評估。

當模型尺寸從 124M 增加到 355M 、 774M 、 2B 和 8B 時,我們觀察到在困惑、清晰、一致性、連貫性和流暢性方面的一致性改善,這表明進一步縮小模型尺寸幾乎總能提高生成質量。為了保持一致性,我們在 8B 參數(shù)下的最佳模型達到了 93% 的分數(shù),這意味著 93% 的生成故事被注釋為邏輯一致。

可控性評價

我們首先將關鍵字改為反義詞,然后詢問注釋者生成的故事是否根據(jù)新的關鍵字而變化,以此來評估模型的可控性。表 2 中的結果表明,從Megatron-CNTRL-124M-ANT (它是通過將關鍵字改為反義詞的受控版本)生成的 77 . 5% 是由新關鍵字控制的。將發(fā)電模型從 124M 擴展到 8B ,我們觀察到可控性得分提高到 91 . 5% ,這表明大型模型對可控性有顯著的幫助。

poYBAGJfqRKAAFiLAAAOWLAsoyQ777.png

表 2 。通過將關鍵字改為反義詞,人類對可控性的評價。

可控世代樣本

在下面的例子中,我們展示了Megatron-CNTRL 的能力。我們展示了在不同的發(fā)電粒度水平下的可控性。給出一個句子,Megatron-CNTRL 提出控制關鍵字。用戶可以使用它們,也可以提供他們選擇的外部控件關鍵字。這個過程一直持續(xù)到整個故事生成的結尾。

例 1:我們提供句子“[FEMALE]在一次公路旅行中”和一開始的控制關鍵字“ driving ”。根據(jù)這個輸入 Megatron 控制產生“她在路上開車”的條件是“開車”。然后,該模型預測下兩步的新關鍵詞“突然”和“拉動,檢查”,并生成相應的故事句。在生成最后一個句子之前,我們再次提供外部控制關鍵字“ help ”。我們觀察到,生成的句子“它吸煙嚴重,需要幫助”跟在控制關鍵字后面。

視頻 1 。使用“ driving ”關鍵字生成的故事。

例 2:我們給出與示例 1 相同的輸入語句:“[FEMALE]在一次公路旅行中”,但是在開始時使用了不同的控制關鍵字“ excited ”。因此,Megatron-CNTRL 基于“激動”產生了一個新的故事句子:“她興奮是因為她終于見到了(女性)”。在生成完整的故事之后,我們看到這個新的例子展示了一個關于一只巨大黑熊的可怕故事。由于外部情緒控制關鍵字引入的情感體驗,它比示例 1 中的更具吸引力。

視頻 2 。用“激動”關鍵字生成的故事。

結論

我們的工作證明了將大型的、經過訓練的模型與外部知識庫相結合的好處以及生成過程的可控性。我們未來的工作將是使知識檢索器可學習,并為更長的世代引入結構級控制。

例 2 :我們給出與示例 1 相同的輸入語句:“[FEMALE]在一次公路旅行中”,但是在開始時使用了不同的控制關鍵字“ excited ”。因此,Megatron-CNTRL 基于“激動”產生了一個新的故事句子:“她興奮是因為她終于見到了(女性)”。在生成完整的故事之后,我們看到這個新的例子展示了一個關于一只巨大黑熊的可怕故事。由于外部情緒控制關鍵字引入的情感體驗,它比示例 1 中的更具吸引力。

結論

我們的工作證明了將大型的、經過訓練的模型與外部知識庫相結合的好處以及生成過程的可控性。我們未來的工作將是使知識檢索器可學習,并為更長的世代引入結構級控制。

關于作者

Peng Xu是香港科技大學的候選人。他的研究重點是情感計算和自然語言生成。通過構建能夠理解人類情感的系統(tǒng),他旨在實現(xiàn)更好的人機交互,并將更多自然世代的界限從機器上推出來。他在中國科學技術大學獲得電子工程和信息科學學士學位。

Mostofa Patwary 是 NVIDIA 應用深度學習研究團隊的高級深度學習研究科學家。 Mostofa 的研究興趣遍及自然語言處理、可擴展深度學習、高性能計算和算法工程等領域。在加入 NVIDIA 之前, Mostofa 在百度硅谷人工智能實驗室( Silicon Valley AI Lab )致力于擴展大型語言模型和擴展深度學習應用程序的可預測性。 Mostofa 還為能夠在超級計算機上運行的機器學習中的幾個核心內核開發(fā)大規(guī)模代碼做出了重大貢獻。

Mohammad Shoeybi 是一位高級研究科學家,在 NVIDIA 管理應用深度學習研究小組的 NLP 團隊。他的團隊專注于語言建模, NLP 應用,如問答和對話系統(tǒng),以及大規(guī)模培訓。他獲得了博士學位。 2010 年從斯坦福大學畢業(yè)。在 NVIDIA 之前,他曾在 DeepMind 和美國百度工作,致力于將深度學習和強化學習應用到應用程序中。

Raul Puri 是 OpenAI 的研究科學家。勞爾在加州大學伯克利分校獲得電子工程和計算機科學學士學位,重點研究生物醫(yī)學工程。

Pascale Fung 是香港香港科技大學計算機科學與工程系的 ELE 〔 ZDK0 〕電子與計算機工程系教授。馮教授獲哥倫比亞大學計算機科學博士學位。她曾在 at & T 貝爾實驗室、 BBN 系統(tǒng)與技術公司、 LIMSI 、 CNRS 、日本京都大學信息科學系和法國巴黎中央經濟學院工作和學習。馮教授能流利地講七種歐洲和亞洲語言,他對多語種演講和自然語言問題特別感興趣。

Anima Anandkumar 在學術界和工業(yè)界擁有雙重地位。她是加州理工學院 CMS 系的布倫教授和 NVIDIA 的機器學習研究主任。在 NVIDIA ,她領導著開發(fā)下一代人工智能算法的研究小組。在加州理工學院,她是 Dolcit 的聯(lián)合主任,與 Yisong Yue 共同領導 AI4science initiative 。

Bryan Catanzaro 是 NVIDIA 應用深度學習研究的副總裁,他領導一個團隊尋找使用人工智能的新方法來改善項目,從語言理解到計算機圖形和芯片設計。布萊恩在 NVIDIA 的研究導致了 cuDNN 的誕生,最近,他幫助領導了發(fā)明 dlss2 。 0 的團隊。在 NVIDIA 之前,他曾在百度創(chuàng)建下一代系統(tǒng),用于培訓和部署端到端、基于深度學習的語音識別。布萊恩在加州大學伯克利分校獲得了電子工程和計算機科學博士學位

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5594

    瀏覽量

    109781
  • 深度學習
    +關注

    關注

    73

    文章

    5599

    瀏覽量

    124405
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    開發(fā)知識庫測試添加知識

    文檔類型的知識要等待數(shù)據(jù)校驗完成后才能上架 可以點擊知識名稱查看知識詳情 等待后端處理完成可以點擊知識列表的上架 在智能體中知識庫的位置點
    發(fā)表于 03-06 15:07

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁、文章等)進行預訓練,學會語言
    的頭像 發(fā)表于 02-02 16:36 ?924次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    【「龍芯之光 自主可控處理器設計解析」閱讀體驗】+可測試設計章節(jié)閱讀與自己的一些感想

    可控性是指的可以通過輸入端口控制內部引線邏輯狀態(tài) 可觀測指的是可以將內部 引線邏輯 狀態(tài)引到指定的輸出端口,外部觀測到。 上述 兩者 是可測試 最核心的手段,舉個例子可以通過某個引
    發(fā)表于 01-15 23:30

    借助NVIDIA Megatron-Core大模型訓練框架提高顯存使用效率

    隨著模型規(guī)模邁入百億、千億甚至萬億參數(shù)級別,如何在有限顯存中“塞下”訓練任務,對研發(fā)和運維團隊都是巨大挑戰(zhàn)。NVIDIA Megatron-Core 作為流行的大模型訓練框架,提供了靈活高效的并行化
    的頭像 發(fā)表于 10-21 10:55 ?1157次閱讀
    借助NVIDIA <b class='flag-5'>Megatron</b>-Core大<b class='flag-5'>模型</b>訓練框架提高顯存使用效率

    四款簡道云的開源替代方案:低成本 高可控 搭建專屬芯片行業(yè)業(yè)務流程管理系統(tǒng)

    具低成本與高可控性,讓您搭建出一個完全貼合芯片行業(yè)特色的業(yè)務流程管理系統(tǒng)
    的頭像 發(fā)表于 09-08 10:06 ?1095次閱讀

    知識分享 | 使用MXAM進行AUTOSAR模型的靜態(tài)分析:Embedded Coder與TargetLink模型

    知識分享在知識分享欄目中,我們會定期與讀者分享來自MES模賽思的基于模型的軟件開發(fā)相關Know-How干貨,關注公眾號,隨時掌握基于模型的軟件設計的技術
    的頭像 發(fā)表于 08-27 10:04 ?734次閱讀
    <b class='flag-5'>知識</b>分享 | 使用MXAM進行AUTOSAR<b class='flag-5'>模型</b>的靜態(tài)分析:Embedded Coder與TargetLink<b class='flag-5'>模型</b>

    移遠通信飛鳶AIoT大模型應用算法成功通過備案

    近日,第十二批境內深度合成服務算法備案信息發(fā)布,移遠通信"飛鳶AIoT大模型應用算法"榜上有名。這標志著該算法在技術合規(guī)、安全可控性及社會價值上獲得權威認可,彰顯了移遠通信在
    的頭像 發(fā)表于 08-06 08:48 ?925次閱讀
    移遠通信飛鳶AIoT大<b class='flag-5'>模型</b>應用算法成功通過備案

    領跑AIoT的關鍵一步!移遠大模型應用算法成功通過備案

    近日,第十二批境內深度合成服務算法備案信息發(fā)布“飛鳶AIoT大模型應用算法”榜上有名這標志著該算法在技術合規(guī)、安全可控性以及社會價值上獲得權威認可彰顯了移遠通信在AI領域的深厚技術積累與行業(yè)
    的頭像 發(fā)表于 08-05 19:05 ?883次閱讀
    領跑AIoT的關鍵一步!移遠大<b class='flag-5'>模型</b>應用算法成功通過備案

    【VisionFive 2單板計算機試用體驗】3、開源大語言模型部署

    1、ollama平臺搭建 ollama可以快速地部署開源大模型,網(wǎng)址https://ollama.com, 試用該平臺,可以在多平臺上部署 Deepseek-R1, Qwen3, Llama
    發(fā)表于 07-19 15:45

    模型在半導體行業(yè)的應用可行分析

    有沒有這樣的半導體專用大模型,能縮短芯片設計時間,提高成功率,還能幫助新工程師更快上手。或者軟硬件可以在設計和制造環(huán)節(jié)確實有實際應用。會不會存在AI缺陷檢測。 能否應用在工藝優(yōu)化和預測維護中
    發(fā)表于 06-24 15:10

    云知聲四篇論文入選自然語言處理頂會ACL 2025

    結果正式公布。云知聲在此次國際學術盛會中表現(xiàn)卓越,共有4篇論文被接收,其中包括2篇主會論文(Main Paper)和2篇Findings。入選的4篇論文聚焦大語言模型知識溯源、圖文音多模態(tài)大
    的頭像 發(fā)表于 05-26 14:15 ?1321次閱讀
    云知聲四篇論文入選自然<b class='flag-5'>語言</b>處理頂會ACL 2025

    小白學大模型:從零實現(xiàn) LLM語言模型

    在當今人工智能領域,大型語言模型(LLM)的開發(fā)已經成為一個熱門話題。這些模型通過學習大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復雜的任務,如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1319次閱讀
    小白學大<b class='flag-5'>模型</b>:從零實現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    如何借助大語言模型打造人工智能生態(tài)系統(tǒng)

    語言模型(LLMs)正以革命的姿態(tài)重塑我們與科技的互動模式。然而,由于其龐大的規(guī)模,它們往往屬于資源密集型范疇,不僅大幅推高了成本,還造成了能源消耗的激增。本文深入剖析了大語言
    的頭像 發(fā)表于 04-27 09:19 ?1096次閱讀
    如何借助大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>打造人工智能生態(tài)系統(tǒng)

    PaddleNLPGPT-2模型制作FineWeb二進制預訓練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《PaddleNLP在4060單卡上實踐大模型預訓練技術》發(fā)布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術細節(jié)。本文主要針對大語言模型
    的頭像 發(fā)表于 03-21 18:24 ?4325次閱讀
    <b class='flag-5'>用</b>PaddleNLP<b class='flag-5'>為</b>GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制預訓練數(shù)據(jù)集

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺內容相關的自然
    的頭像 發(fā)表于 03-17 15:32 ?8877次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析