91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Transformer模型的具體應(yīng)用

NVIDIA英偉達(dá) ? 來(lái)源:NVIDIA英偉達(dá) ? 2024-11-20 09:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如果想在 AI 領(lǐng)域引領(lǐng)一輪新浪潮,就需要使用到 Transformer。

盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。

在上一篇《什么是 Transformer 模型(一)》中,通過(guò)對(duì) Transformer 模型進(jìn)行的深入剖析,展開(kāi)了一幅 AI 領(lǐng)域的創(chuàng)新畫(huà)卷,本篇文章將聚焦于該模型在現(xiàn)實(shí)世界各個(gè)領(lǐng)域中的具體應(yīng)用,以及這些應(yīng)用如何改變我們的生活和工作方式,展望其在未來(lái)人工智能發(fā)展中的潛在影響。

讓 Transformer 發(fā)揮作用

很快,Transformer 模型就被應(yīng)用于科學(xué)和醫(yī)療領(lǐng)域。

倫敦的 DeepMind 使用一種名為 AlphaFold2 的 Transformer 加深了對(duì)蛋白質(zhì)這一生命基礎(chǔ)要素的理解。最近《自然》期刊上的一篇文章對(duì)該 Transformer 進(jìn)行了描述。這種 Transformer 能夠像處理文本字符串一樣處理氨基酸鏈,為描述蛋白質(zhì)的折疊方式打開(kāi)了新的思路,這項(xiàng)研究可以加快藥物發(fā)現(xiàn)的速度。

阿斯利康和 NVIDIA 共同開(kāi)發(fā)了一個(gè)專為藥物發(fā)現(xiàn)量身定制的 Transformer MegaMolBART。MegaMolBART 是該制藥公司 MolBART Transformer 的一個(gè)版本,使用 NVIDIA Megatron 在一個(gè)大型、無(wú)標(biāo)記的化合物數(shù)據(jù)庫(kù)上訓(xùn)練,以創(chuàng)建大規(guī)模 Transformer 模型。

閱讀分子和醫(yī)療記錄

阿斯利康分子 AI、發(fā)現(xiàn)科學(xué)和研發(fā)部門(mén)負(fù)責(zé)人 Ola Engkvist 在 2020 年宣布這項(xiàng)工作時(shí)表示:“正如 AI 語(yǔ)言模型可以學(xué)習(xí)句子中單詞之間的關(guān)系一樣,我們的目標(biāo)是使在分子結(jié)構(gòu)數(shù)據(jù)上訓(xùn)練而成的神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)現(xiàn)實(shí)世界分子中原子之間的關(guān)系?!?/p>

為了從大量臨床數(shù)據(jù)中提煉洞察,加快醫(yī)學(xué)研究的速度,佛羅里達(dá)大學(xué)學(xué)術(shù)健康中心與 NVIDIA 研究人員聯(lián)合創(chuàng)建了 GatorTron 這個(gè) Transformer 模型。

Transformer 增長(zhǎng)

在研究過(guò)程中,研究人員發(fā)現(xiàn)大型 Transformer 性能更好。

慕尼黑工業(yè)大學(xué) Rostlab 的研究人員推動(dòng)著 AI 與生物學(xué)交叉領(lǐng)域的前沿研究,他們利用自然語(yǔ)言處理技術(shù)來(lái)了解蛋白質(zhì)。該團(tuán)隊(duì)在 18 個(gè)月的時(shí)間里,從使用具有 9000 萬(wàn)個(gè)參數(shù)的 RNN 升級(jí)到具有 5.67 億個(gè)參數(shù)的 Transformer 模型。

Rostlab 研究人員展示了在沒(méi)有標(biāo)記樣本的情況下訓(xùn)練的語(yǔ)言模型所捕捉到的蛋白質(zhì)序列信號(hào)

OpenAI 實(shí)驗(yàn)室的生成式預(yù)訓(xùn)練 Transformer(GPT)證明了模型的規(guī)模越大越好。其最新版本 GPT-3 有 1750 億個(gè)參數(shù),而 GPT-2 只有 15 億個(gè)。

憑借更多的參數(shù),GPT-3 即使在沒(méi)有經(jīng)過(guò)專門(mén)訓(xùn)練的情況下,也能回答用戶的問(wèn)詢。思科、IBM、Salesforce 等公司已經(jīng)在使用 GPT-3。

巨型 Transformer 的故事

NVIDIA 和微軟在 2022 年 11 月發(fā)布了擁有 5300 億個(gè)參數(shù)的 Megatron-Turing 自然語(yǔ)言生成模型(MT-NLG)。與它一起發(fā)布的框架 NVIDIA NeMo Megatron 旨在讓任何企業(yè)都能創(chuàng)建自己的十億或萬(wàn)億參數(shù) Transformer,為自定義聊天機(jī)器人、個(gè)人助手以及其他能理解語(yǔ)言的 AI 應(yīng)用提供助力。

MT-NLG 首次公開(kāi)亮相是作為 Toy Jensen(TJ)虛擬形象的大腦,幫助 TJ 在 NVIDIA 2021 年 11 月的 GTC 上發(fā)表了一部分主題演講。

負(fù)責(zé) NVIDIA 團(tuán)隊(duì)訓(xùn)練該模型的 Mostofa Patwary 表示:“當(dāng)我們看到 TJ 回答問(wèn)題時(shí),他作為我們的首席執(zhí)行官展示我們的工作成果,那一刻真是令人振奮?!?/p>

創(chuàng)建這樣的模型并非易事。MT-NLG 使用數(shù)千億個(gè)數(shù)據(jù)元素訓(xùn)練而成,整個(gè)過(guò)程需要數(shù)千顆 GPU 運(yùn)行數(shù)周時(shí)間。

Patwary 表示:“訓(xùn)練大型 Transformer 模型既昂貴又耗時(shí),如果前一兩次沒(méi)有成功,項(xiàng)目就可能被取消?!?/p>

萬(wàn)億參數(shù) Transformer

如今,許多 AI 工程師正在研究萬(wàn)億參數(shù) Transformer 及其應(yīng)用。

Patwary 表示:“我們一直在研究這些大模型如何提供更好的應(yīng)用。我們還在研究它們會(huì)在哪些方面失敗,這樣就能創(chuàng)建出更好、更大的模型?!?/p>

為了提供這些模型所需的算力,NVIDIA 的加速器內(nèi)置了一個(gè) Transformer 引擎并支持新的 FP8 格式,既加快了訓(xùn)練速度,又保持了準(zhǔn)確性。

黃仁勛在 GTC 2022 上表示,通過(guò)這些及其他方面的進(jìn)步,“Transformer 模型的訓(xùn)練時(shí)間可以從數(shù)周縮短到數(shù)天。”

TJ 在 GTC 2022 上表示:“Megatron 能幫助我回答黃仁勛拋給我的所有難題?!?/p>

MoE 對(duì)于 Transformer 的意義更大

谷歌研究人員 2021 年介紹的 Switch Transformer 是首批萬(wàn)億參數(shù)模型之一。該模型利用 AI 稀疏性、復(fù)雜的混合專家(MoE)架構(gòu)等先進(jìn)技術(shù)提高了語(yǔ)言處理性能并使預(yù)訓(xùn)練速度加快了最多 7 倍。

8cb8f6e8-9ffe-11ef-93f3-92fbcf53809c.jpg

首個(gè)擁有多達(dá)一萬(wàn)億個(gè)參數(shù)模型 Switch Transformer 的編碼器

微軟 Azure 則與 NVIDIA 合作,在其翻譯服務(wù)中使用了 MoE Transformer。

解決 Transformer 所面臨的挑戰(zhàn)

如今,一些研究人員的目標(biāo)是開(kāi)發(fā)出性能與那些最大的模型相同、但參數(shù)更少并且更簡(jiǎn)單的 Transformer。

Cohere 的 Gomez 以 DeepMind 的 Retro 模型為例:“我看到基于檢索的模型將大有可為并實(shí)現(xiàn)彎道超車(chē),對(duì)此我感到非常興奮?!?/p>

基于檢索的模型通過(guò)向數(shù)據(jù)庫(kù)提交查詢來(lái)進(jìn)行學(xué)習(xí)。他表示:“這很酷,因?yàn)槟憧梢詫?duì)放到知識(shí)庫(kù)中的內(nèi)容進(jìn)行選擇。”

8ccbe12c-9ffe-11ef-93f3-92fbcf53809c.jpg

在追求更高性能的過(guò)程中,Transformer 模型的規(guī)模也在不斷擴(kuò)大

Vaswani 現(xiàn)在是一家隱形 AI 初創(chuàng)公司的聯(lián)合創(chuàng)始人,他表示最終目標(biāo)是“讓這些模型像人類(lèi)一樣,在現(xiàn)實(shí)世界中使用極少的數(shù)據(jù)就能從上下文中學(xué)習(xí)?!?/p>

他想象未來(lái)的模型可以在前期進(jìn)行更多計(jì)算,從而減少對(duì)數(shù)據(jù)的需求,使用戶能夠更好地提供反饋。

“我們的目標(biāo)是創(chuàng)建能夠在日常生活中幫助人們的模型。”

安全、負(fù)責(zé)任的模型

其他研究人員正在研究如何在模型放大錯(cuò)誤或有害語(yǔ)言時(shí)消除偏見(jiàn)或有害性,例如斯坦福大學(xué)專門(mén)創(chuàng)建了基礎(chǔ)模型研究中心探究這些問(wèn)題。

NVIDIA 研究科學(xué)家 Shrimai Prabhumoye 是業(yè)內(nèi)眾多研究這一領(lǐng)域的人士之一。他表示:“這些都是在安全部署模型前需要解決的重要問(wèn)題?!?/p>

“如今,大多數(shù)模型需要的是特定的單詞或短語(yǔ)。但在現(xiàn)實(shí)生活中,這些內(nèi)容可能會(huì)以十分微妙的方式呈現(xiàn),因此我們必須考慮整個(gè)上下文。”

Gomez 表示:“這也是 Cohere 最關(guān)心的問(wèn)題。如果這些模型會(huì)傷害到人,就不會(huì)有人使用它們,所以創(chuàng)建最安全、最負(fù)責(zé)任的模型是最基本的要求?!?/p>

展望未來(lái)

在 Vaswani 的想象中,未來(lái)能夠自我學(xué)習(xí)、由注意力驅(qū)動(dòng)的 Transformer 最有可能成為 AI 的“殺手锏”。

他表示:“我們現(xiàn)在有機(jī)會(huì)實(shí)現(xiàn)人們?cè)趧?chuàng)造‘通用人工智能’一詞時(shí)提到的一些目標(biāo),我覺(jué)得這給我們帶來(lái)了巨大的啟發(fā)?!?/p>

“在當(dāng)前這個(gè)時(shí)代,神經(jīng)網(wǎng)絡(luò)等各種簡(jiǎn)單的方法正在賦予我們大量新的能力?!?/p>

小結(jié)

本文通過(guò)對(duì) Transformer 模型的應(yīng)用案例進(jìn)行了梳理,并對(duì)其未來(lái)的發(fā)展方向進(jìn)行了預(yù)測(cè)。從生物醫(yī)藥到科學(xué)研究,該模型不僅在技術(shù)上取得了突破,更在實(shí)際應(yīng)用中展現(xiàn)了其深遠(yuǎn)的影響力和廣闊的前景。本文系列內(nèi)容到此已經(jīng)對(duì) Transformer 模型如何擴(kuò)展我們對(duì)于機(jī)器學(xué)習(xí)和 AI 的想象進(jìn)行了深入介紹。隨著技術(shù)的不斷進(jìn)步,Transformer 模型將在 AI 的新時(shí)代中扮演著更加關(guān)鍵的角色,推動(dòng)各行各業(yè)的創(chuàng)新與變革。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5592

    瀏覽量

    109702
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39703

    瀏覽量

    301298
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3750

    瀏覽量

    52091
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    156

    瀏覽量

    6936

原文標(biāo)題:什么是 Transformer 模型(二)

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Transformer 入門(mén):從零理解 AI 大模型的核心原理

    分:Transformer 架構(gòu)詳解 現(xiàn)在你已經(jīng)了解了數(shù)學(xué)基礎(chǔ)和語(yǔ)言模型概念,讓我們來(lái)看 Transformer 是如何工作的! Transformer 的目標(biāo)
    發(fā)表于 02-10 16:33

    Transformer如何讓自動(dòng)駕駛大模型獲得思考能力?

    在談及自動(dòng)駕駛時(shí),Transformer一直是非常關(guān)鍵的技術(shù),為何Transformer在自動(dòng)駕駛行業(yè)一直被提及?
    的頭像 發(fā)表于 02-01 09:15 ?4150次閱讀

    深入解析NVIDIA Nemotron 3系列開(kāi)放模型

    這一全新開(kāi)放模型系列引入了開(kāi)放的混合 Mamba-Transformer MoE 架構(gòu),使多智能體系統(tǒng)能夠進(jìn)行快速長(zhǎng)上下文推理。
    的頭像 發(fā)表于 12-24 10:34 ?4040次閱讀
    深入解析NVIDIA Nemotron 3系列開(kāi)放<b class='flag-5'>模型</b>

    Transformer如何讓自動(dòng)駕駛變得更聰明?

    ]自動(dòng)駕駛中常提的Transformer本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最早在自然語(yǔ)言處理里火起來(lái)。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer能夠自動(dòng)審視所有輸入信息,并動(dòng)態(tài)判斷哪些部分更為關(guān)鍵,同時(shí)可以將這些重要信息有效地關(guān)聯(lián)起來(lái)。
    的頭像 發(fā)表于 11-19 18:17 ?2252次閱讀

    圖解AI核心技術(shù):大模型、RAG、智能體、MCP

    和使用AI。 大模型 Transformer vs. Mixture of Experts 混合專家 (MoE) 是一種流行的架構(gòu),它使用不同的“專家”來(lái)改進(jìn) Transformer 模型
    的頭像 發(fā)表于 10-21 09:48 ?694次閱讀
    圖解AI核心技術(shù):大<b class='flag-5'>模型</b>、RAG、智能體、MCP

    使用OpenVINO將PP-OCRv5模型部署在Intel顯卡上

    是一個(gè)用于優(yōu)化和部署人工智能(AI)模型,提升AI推理性能的開(kāi)源工具集合,不僅支持以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為核心組件的預(yù)測(cè)式AI模型(Predictive AI),還支持以Transformer為核心組件的生成式AI
    的頭像 發(fā)表于 09-20 11:17 ?1238次閱讀
    使用OpenVINO將PP-OCRv5<b class='flag-5'>模型</b>部署在Intel顯卡上

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    連接定義了神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。 不同神經(jīng)網(wǎng)絡(luò)的DNN: 一、基于大模型的AI芯片 1、Transformer 模型與引擎 1.1 Transformer
    發(fā)表于 09-12 17:30

    小白學(xué)大模型:國(guó)外主流大模型匯總

    )領(lǐng)域。論文的核心是提出了一種名為Transformer的全新模型架構(gòu),它完全舍棄了以往序列模型(如循環(huán)神經(jīng)網(wǎng)絡(luò)RNNs和卷積神經(jīng)網(wǎng)絡(luò)CNNs)中常用的循環(huán)和卷積結(jié)構(gòu)
    的頭像 發(fā)表于 08-27 14:06 ?937次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:國(guó)外主流大<b class='flag-5'>模型</b>匯總

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1771次閱讀
    NVIDIA Nemotron Nano 2推理<b class='flag-5'>模型</b>發(fā)布

    自動(dòng)駕駛中Transformer模型會(huì)取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]近年來(lái),隨著ChatGPT、Claude、文心一言等大語(yǔ)言模型在生成文本、對(duì)話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4172次閱讀
    自動(dòng)駕駛中<b class='flag-5'>Transformer</b>大<b class='flag-5'>模型</b>會(huì)取代深度學(xué)習(xí)嗎?

    Transformer在端到端自動(dòng)駕駛架構(gòu)中是何定位?

    典型的Transformer架構(gòu)已被用于構(gòu)建“感知-規(guī)劃-控制統(tǒng)一建?!钡姆桨?。如Waymo和小馬智行正在研發(fā)的多模態(tài)大模型(MultimodalLargeModels,MLLMs),將來(lái)自攝像頭
    的頭像 發(fā)表于 08-03 11:03 ?1366次閱讀

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼器根據(jù)整個(gè)序列捕獲每個(gè)token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?1059次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)中編碼器的工作流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語(yǔ)言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1280次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    從FA模型切換到Stage模型時(shí):module的切換說(shuō)明

    module的切換 從FA模型切換到Stage模型時(shí),開(kāi)發(fā)者需要將config.json文件module標(biāo)簽下的配置遷移到module.json5配置文件module標(biāo)簽下,具體差異
    發(fā)表于 06-05 08:16

    FA模型訪問(wèn)Stage模型DataShareExtensionAbility說(shuō)明

    。 DataShareHelper并沒(méi)有實(shí)現(xiàn)原DataAbilityHelper對(duì)外API接口的所有功能,因此有部分接口是無(wú)法兼容的,具體如表1所示。 表1 FA模型訪問(wèn)stage模型
    發(fā)表于 06-04 07:53