91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是BERT?為何選擇BERT?

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 作者:NVIDIA英偉達 ? 2022-04-26 14:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

BERT 是由 Google 開發(fā)的自然語言處理模型,可學習文本的雙向表示,顯著提升在情境中理解許多不同任務(wù)中的無標記文本的能力。

BERT 是整個類 BERT 模型(例如 RoBERTa、ALBERT 和 DistilBERT)系列的基礎(chǔ)。

什么是 BERT?

基于 Transformer (變換器)的雙向編碼器表示 (BERT) 技術(shù)由 Google 開發(fā),通過在所有層中共同調(diào)整左右情境,利用無標記文本預(yù)先訓練深度雙向表示。該技術(shù)于 2018 年以開源許可的形式發(fā)布。Google 稱 BERT 為“第一個深度雙向、無監(jiān)督式語言表示,僅使用純文本語料庫預(yù)先進行了訓練”(Devlin et al. 2018)。

雙向模型在自然語言處理 (NLP) 領(lǐng)域早已有應(yīng)用。這些模型涉及從左到右以及從右到左兩種文本查看順序。BERT 的創(chuàng)新之處在于借助 Transformer 學習雙向表示,Transformer 是一種深度學習組件,不同于遞歸神經(jīng)網(wǎng)絡(luò) (RNN) 對順序的依賴性,它能夠并行處理整個序列。因此可以分析規(guī)模更大的數(shù)據(jù)集,并加快模型訓練速度。Transformer 能夠使用注意力機制收集詞語相關(guān)情境的信息,并以表示該情境的豐富向量進行編碼,從而同時處理(而非單獨處理)與句中所有其他詞語相關(guān)的詞語。該模型能夠?qū)W習如何從句段中的每個其他詞語衍生出給定詞語的含義。

之前的詞嵌入技術(shù)(如 GloVe 和 Word2vec)在沒有情境的情況下運行,生成序列中各個詞語的表示。例如,無論是指運動裝備還是夜行動物,“bat”一詞都會以同樣的方式表示。ELMo 通過雙向長短期記憶模型 (LSTM),對句中的每個詞語引入了基于句中其他詞語的深度情景化表示。但 ELMo 與 BERT 不同,它單獨考慮從左到右和從右到左的路徑,而不是將其視為整個情境的單一統(tǒng)一視圖。

由于絕大多數(shù) BERT 參數(shù)專門用于創(chuàng)建高質(zhì)量情境化詞嵌入,因此該框架非常適用于遷移學習。通過使用語言建模等自我監(jiān)督任務(wù)(不需要人工標注的任務(wù))訓練 BERT,可以利用 WikiText 和 BookCorpus 等大型無標記數(shù)據(jù)集,這些數(shù)據(jù)集包含超過 33 億個詞語。要學習其他任務(wù)(如問答),可以使用適合相應(yīng)任務(wù)的內(nèi)容替換并微調(diào)最后一層。

下圖中的箭頭表示三個不同 NLP 模型中從一層到下一層的信息流。

a4d2ac5c-c3be-11ec-bce3-dac502259ad0.png

BERT 模型能夠更精細地理解表達的細微差別。例如,處理序列“Bob 需要一些藥。他的胃不舒服,可以給他拿一些抗酸藥嗎?” BERT 能更好地理解 “Bob”、“他的”和“他”都是指同一個人。以前,在“如何填寫 Bob 的處方”這一查詢中,模型可能無法理解第二句話引用的人是 Bob。應(yīng)用 BERT 模型后,該模型能夠理解所有這些關(guān)聯(lián)點之間的關(guān)系。

雙向訓練很難實現(xiàn),因為默認情況下,在前一個詞語和下一個詞語的基礎(chǔ)上調(diào)節(jié)每個詞都包括多層模型中預(yù)測的詞語。BERT 的開發(fā)者通過遮蔽語料庫中的預(yù)測詞語和其他隨機詞語解決了這個問題。BERT 還使用一種簡單的訓練技術(shù),嘗試預(yù)測給定的兩個句子 A 和 B:B 和 A 是先后還是隨機關(guān)系。

為何選擇 BERT?

自然語言處理是當今許多商業(yè)人工智能研究的中心。例如,除搜索引擎外,NLP 還用在了數(shù)字助手、自動電話響應(yīng)和車輛導(dǎo)航領(lǐng)域。BERT 是一項顛覆性技術(shù),它提供基于大型數(shù)據(jù)集訓練的單一模型,而且已經(jīng)證實該模型能夠在各種 NLP 任務(wù)中取得突破性成果。

BERT 的開發(fā)者表示,模型應(yīng)用范圍很廣(包括解答問題和語言推理),而且無需對任務(wù)所需的具體架構(gòu)做出大量修改。BERT 不需要使用標記好的數(shù)據(jù)預(yù)先進行訓練,因此可以使用任何純文本進行學習。

主要優(yōu)勢(用例)

BERT 可以針對許多 NLP 任務(wù)進行微調(diào)。它是翻譯、問答、情感分析和句子分類等語言理解任務(wù)的理想之選。

目標式搜索

雖然如今的搜索引擎能夠非常出色地理解人們要尋找的內(nèi)容(在人們使用正確查詢格式的前提下),但仍可以通過很多方式改善搜索體驗。對于語法能力差或不懂得搜索引擎提供商所用語言的人員而言,體驗可能令人不快。搜索引擎還經(jīng)常需要用戶嘗試同一查詢的不同變體,才能查詢到理想結(jié)果。

用戶每天在 Google 上執(zhí)行 35 億次搜索,搜索體驗改進后,一天就可以減少 10% 的搜索量,長期累積下來將大幅節(jié)省時間、帶寬和服務(wù)器資源。從業(yè)務(wù)角度來看,它還使搜索提供商能夠更好地了解用戶行為,并投放更具針對性的廣告。

通過幫助非技術(shù)用戶更準確地檢索信息,并減少因查詢格式錯誤帶來的錯誤,可以更好地理解自然語言,從而提高數(shù)據(jù)分析和商業(yè)智能工具的效果。

輔助性導(dǎo)航

在美國,超過八分之一的人有殘疾,而且許多人在物理和網(wǎng)絡(luò)空間中導(dǎo)航的能力受到了限制。對于必須使用語音來控制輪椅、與網(wǎng)站交互和操作周圍設(shè)備的人員而言,自然語言處理是生活必需品。通過提高對語音命令的響應(yīng)能力,BERT 等技術(shù)可以提高生活質(zhì)量,甚至可以在需要快速響應(yīng)環(huán)境的情況下提高人身安全。

BERT 的重要意義

機器學習研究人員

BERT 在自然語言處理方面引發(fā)的變革等同于計算機視覺領(lǐng)域的 AlexNet,在該領(lǐng)域具有顯著的革命性意義。僅需替換網(wǎng)絡(luò)的最后一層,便可針對一些新任務(wù)定制網(wǎng)絡(luò),這項功能意味著用戶可輕松將其應(yīng)用于任何感興趣的研究領(lǐng)域。無論用戶的目標是翻譯、情感分析還是執(zhí)行一些尚未提出的新任務(wù),都可以快速配置網(wǎng)絡(luò)以進行嘗試。截至目前,有關(guān)該模型的引文超過 8000 篇,其衍生用例不斷證明該模型在處理語言任務(wù)方面的先進水平。

軟件開發(fā)者

由于針對大型數(shù)據(jù)集預(yù)先訓練過的模型的廣泛可用性,BERT 大大減少了先進模型在投入生產(chǎn)時受到的計算限制。此外,將 BERT 及其衍生項納入知名庫(如 Hugging Face)意味著,機器學習專家不需要啟動和運行基礎(chǔ)模型了。

BERT 在自然語言解讀方面達到了新的里程碑,與其他模型相比展現(xiàn)了更強大的功能,能夠理解更復(fù)雜的人類語音并能更精確地回答問題。

BERT 為何可在 GPU 上表現(xiàn)更突出

對話式 AI 是人類與智能機器和應(yīng)用程序(從機器人和汽車到家庭助手和移動應(yīng)用)互動的基礎(chǔ)構(gòu)建塊。讓計算機理解人類語言及所有細微差別,并做出適當?shù)姆磻?yīng),這是 AI 研究人員長期以來的追求。但是,在采用加速計算的現(xiàn)代 AI 技術(shù)出現(xiàn)之前,構(gòu)建具有真正自然語言處理 (NLP) 功能的系統(tǒng)是無法實現(xiàn)的。

BERT 在采用 NVIDIA GPU 的超級計算機上運行,以訓練其龐大的神經(jīng)網(wǎng)絡(luò)并實現(xiàn)超高的 NLP 準確性,從而影響已知的人類語言理解領(lǐng)域。雖然目前有許多自然語言處理方法,但讓 AI 具有類似人類的語言能力仍然是難以實現(xiàn)的目標。隨著 BERT 等基于 Transformer 的大規(guī)模語言模型的出現(xiàn),以及 GPU 成為這些先進模型的基礎(chǔ)設(shè)施平臺,我們看到困難的語言理解任務(wù)快速取得了進展。數(shù)十年來,這種 AI 一直備受期待。有了 BERT,這一刻終于到來了。

模型復(fù)雜性提升了 NLP 準確性,而規(guī)模更大的語言模型可顯著提升問答、對話系統(tǒng)、總結(jié)和文章完結(jié)等自然語言處理 (NLP) 應(yīng)用程序的技術(shù)水平。BERT-Base 使用 1.1 億個參數(shù)創(chuàng)建而成,而擴展的 BERT-Large 模型涉及 3.4 億個參數(shù)。訓練高度并行化,因此可以有效利用 GPU 上的分布式處理。BERT 模型已證明能夠有效擴展為 39 億個參數(shù)的 Megatron-BERT 等大規(guī)模模型。

BERT 的復(fù)雜性以及訓練大量數(shù)據(jù)集方面的需求對性能提出了很高的要求。這種組合需要可靠的計算平臺來處理所有必要的計算,以實現(xiàn)快速執(zhí)行并提高準確性。這些模型可以處理大量無標記數(shù)據(jù)集,因此成為了現(xiàn)代 NLP 的創(chuàng)新中心,另外在很多用例中,對于即將推出的采用對話式 AI 應(yīng)用程序的智能助手而言,這些模型都是上佳之選。

NVIDIA 平臺提供可編程性,可以加速各種不同的現(xiàn)代 AI,包括基于 Transformer 的模型。此外,數(shù)據(jù)中心擴展設(shè)計加上軟件庫,以及對先進 AI 框架的直接支持,為承擔艱巨 NLP 任務(wù)的開發(fā)者提供無縫的端到端平臺。

在使用 NVIDIA 的 DGX SuperPOD 系統(tǒng)(基于連接了 HDR InfiniBand 的大規(guī)模 DGX A100 GPU 服務(wù)器集群)進行的一項測試中,NVIDIA 使用 MLPerf Training v0.7 基準實現(xiàn)了 0.81 分鐘的 BERT 訓練時間,創(chuàng)造了記錄。相比之下,Google 的 TPUv3 在同一測試中所用時間超過了 56 分鐘。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3953

    瀏覽量

    142617
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    18

    文章

    5648

    瀏覽量

    75010
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    630

    瀏覽量

    14667

原文標題:NVIDIA 大講堂 | 什么是 BERT ?

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    算法工程師需要具備哪些技能?

    、鏈式法則等。應(yīng)用場景:梯度下降優(yōu)化算法、反向傳播計算等。 優(yōu)化理論核心內(nèi)容:凸優(yōu)化、非凸優(yōu)化、拉格朗日乘數(shù)法等。應(yīng)用場景:模型參數(shù)調(diào)優(yōu)、資源分配問題等。 編程語言Python:主流選擇,用于數(shù)據(jù)處理、模型
    發(fā)表于 02-27 10:53

    關(guān)聯(lián)使能VP時為何改變VP默認初始值?控件關(guān)聯(lián)了使能VP變量,為何默認值不是0?

    關(guān)聯(lián)使能VP時為何改變VP默認初始值?控件關(guān)聯(lián)了使能VP變量,為何默認值不是0?
    發(fā)表于 02-03 14:19

    電源測試為何棄用實際負載?模擬負載才是高效選擇

    在電源研發(fā)、生產(chǎn)質(zhì)檢與性能驗證的全流程中,負載測試是衡量電源輸出穩(wěn)定性、可靠性的關(guān)鍵環(huán)節(jié)。不少人會產(chǎn)生疑問:直接連接實際用電設(shè)備測試,難道不是貼合真實場景的方式嗎?為何行業(yè)內(nèi)更青睞模擬負載而非實際負載?本文就來解開這個疑惑,同時帶大家認識一款能精確滿足各類電源測試需求的利器--源儀電子負載
    的頭像 發(fā)表于 12-02 11:44 ?310次閱讀
    電源測試<b class='flag-5'>為何</b>棄用實際負載?模擬負載才是高效<b class='flag-5'>選擇</b>

    比特誤碼率測試儀接收端受限眼圖自動校準最佳實踐

    Tektronix提供針對PCIe 6.0 CEM測試的 比特誤碼率測試儀 (BERT) 接收端 (RX) 受限眼圖自動校準。該軟件名為TekRXTest,并支持額外的功能,例如RX表征與裕量測試
    的頭像 發(fā)表于 10-24 16:16 ?4048次閱讀
    比特誤碼率測試儀接收端受限眼圖自動校準最佳實踐

    求問大神們,為何電動車霍爾信號無法采集?

    求問大神們,為何電動車霍爾信號無法采集? 接上霍爾信號線擰轉(zhuǎn)把電機不動,拔掉線正常轉(zhuǎn)動。 HALL-A是用萬用表測了有5v脈沖。
    發(fā)表于 10-14 13:53

    CSD船用變壓器為何成為船廠的首選配套設(shè)備?

    在船舶建造領(lǐng)域,有一個隱形卻至關(guān)重要的選擇困擾著無數(shù)工程師:如何為新造船舶配置一套可靠的岸電系統(tǒng)?答案往往指向CSD船用變壓器。但為何偏偏是它?普通工業(yè)變壓器難道不夠用嗎?答案藏在船舶的獨特需求里
    的頭像 發(fā)表于 09-20 10:16 ?592次閱讀
    CSD船用變壓器<b class='flag-5'>為何</b>成為船廠的首選配套設(shè)備?

    真正零中斷:在線式UPS為何是關(guān)鍵業(yè)務(wù)的電力守護神?

    在數(shù)字時代,瞬間的斷電或電壓波動都可能導(dǎo)致服務(wù)器宕機、數(shù)據(jù)丟失或生產(chǎn)線停擺。在選擇不間斷電源(UPS)時,在線式(Online)UPS常被譽為最高級別的解決方案。本文將拋開品牌光環(huán),純粹從技術(shù)角度
    的頭像 發(fā)表于 09-15 09:05 ?863次閱讀
    真正零中斷:在線式UPS<b class='flag-5'>為何</b>是關(guān)鍵業(yè)務(wù)的電力守護神?

    為何化工企業(yè)偏愛GUTOR UPS?

    為何化工企業(yè)偏愛GUTOR UPS?
    發(fā)表于 07-03 14:33

    交流電機EMC整改:電磁兼容問題為何成為核心挑戰(zhàn)

    深圳南柯電子|交流電機EMC整改:電磁兼容問題為何成為核心挑戰(zhàn)
    的頭像 發(fā)表于 05-28 11:19 ?1122次閱讀
    交流電機EMC整改:電磁兼容問題<b class='flag-5'>為何</b>成為核心挑戰(zhàn)

    選擇厚聲貼片電阻的原因有哪些?

    中,厚聲貼片電阻憑借其出色的特性和廣泛的應(yīng)用領(lǐng)域,成為了眾多設(shè)計師和制造商的首選。以下,我們將詳細探討選擇厚聲貼片電阻的理由,從多個維度解析其為何能在激烈的市場競爭中脫穎而出。 選擇厚聲貼片電阻的理由主要包
    的頭像 發(fā)表于 05-23 17:27 ?639次閱讀
    <b class='flag-5'>選擇</b>厚聲貼片電阻的原因有哪些?

    STM32CubeMX在配置DCMI的腳位時,在Mode的選項中, 只有8bits, 10bits與12bits, 為何沒有14bits?

    STM32CubeMX在配置DCMI的腳位時,在Mode的選項中, 只有8bits, 10bits與12bits, 為何沒有14bits?
    發(fā)表于 04-27 08:49

    中國為何同時面臨算力過剩與短缺 ?

    中國為何同時面臨算力過剩與短缺 ?
    的頭像 發(fā)表于 04-24 15:02 ?1321次閱讀
    中國<b class='flag-5'>為何</b>同時面臨算力過剩與短缺 ?

    車載通信方案為何選擇CAN/CANFD?

    摘要 隨著汽車電子技術(shù)的飛速發(fā)展,車載通信系統(tǒng)在車輛的智能化、網(wǎng)聯(lián)化進程中扮演著至關(guān)重要的角色??刂破骶钟蚓W(wǎng)絡(luò)(CAN)及其擴展版本CANFD憑借其卓越的可靠性、高效的數(shù)據(jù)傳輸能力和強大的抗干擾特性,成為現(xiàn)代汽車通信架構(gòu)的核心技術(shù)。本文深入探討了CAN/CANFD技術(shù)的基本原理、優(yōu)勢特性以及在車載通信中的廣泛應(yīng)用,結(jié)合多家廠商的產(chǎn)品信息,分析了其在實際應(yīng)用中的性能表現(xiàn)和設(shè)計考量,旨在為車載通信方案的設(shè)計與優(yōu)化提供理論依據(jù)和
    的頭像 發(fā)表于 03-25 21:38 ?984次閱讀

    ?VLM(視覺語言模型)?詳細解析

    的詳細解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BERT等,部分模型
    的頭像 發(fā)表于 03-17 15:32 ?8828次閱讀
    ?VLM(視覺語言模型)?詳細解析

    FPV蘑菇頭天線:為何成為FPV愛好者的首選

    深圳安騰納天線|FPV蘑菇頭天線:為何成為FPV愛好者的首選
    的頭像 發(fā)表于 03-17 09:06 ?2090次閱讀