91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌提出Flan-T5,一個模型解決所有NLP任務

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:nghuyong ? 2022-11-24 11:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

d797167e-6ba6-11ed-8abf-dac502259ad0.jpg

「論文」: Scaling Instruction-Finetuned Language Models
「地址」: https://arxiv.org/abs/2210.11416
「模型」: https://huggingface.co/google/flan-t5-xxl

1. Flan-T5是什么

「Flan-T5」是Google最新的一篇工作,通過在超大規(guī)模的任務上進行微調(diào),讓語言模型具備了極強的泛化性能,做到單個模型就可以在1800多個NLP任務上都能有很好的表現(xiàn)。這意味著模型一旦訓練完畢,可以直接在幾乎全部的NLP任務上直接使用,實現(xiàn)「One model for ALL tasks」,這就非常有誘惑力!

這里的Flan指的是(Instruction finetuning),即"基于指令的微調(diào)";T5是2019年Google發(fā)布的一個語言模型了。注意這里的語言模型可以進行任意的替換(需要有Decoder部分,所以「不包括BERT這類純Encoder語言模型」),論文的核心貢獻是提出一套多任務的微調(diào)方案(Flan),來極大提升語言模型的泛化性。

d7ad732e-6ba6-11ed-8abf-dac502259ad0.png

Flat

例如下面文章中的例子,模型訓練好之后,可直接讓模型做問答:

「模型輸入」是:"Geoffrey Hinton和George Washington這兩個人有沒有交談過?在回答之前想一想原因?!?/p>

「模型返回」是:Geoffrey Hinton是一個計算機科學家,出生在1947年;而George Washington在1799年去世。所以這兩個不可能有過交談。所以答案時“沒有”。

2. 怎么做的

d7bb88b0-6ba6-11ed-8abf-dac502259ad0.png

1800+微調(diào)任務

(1) 「任務收集」:工作的第一步是收集一系列監(jiān)督的數(shù)據(jù),這里一個任務可以被定義成<數(shù)據(jù)集,任務類型的形式>,比如“基于SQuAD數(shù)據(jù)集的問題生成任務”。需要注意的是這里有9個任務是需要進行推理的任務,即Chain-of-thought (CoT)任務。

(2) 「形式改寫」:因為需要用單個語言模型來完成超過1800+種不同的任務,所以需要將任務都轉(zhuǎn)換成相同的“輸入格式”喂給模型訓練,同時這些任務的輸出也需要是統(tǒng)一的“輸出格式”。

d7d6b630-6ba6-11ed-8abf-dac502259ad0.png

輸入輸出格式

如上圖所示,根據(jù) “是否需要進行推理 (CoT)” 以及 “是否需要提供示例(Few-shot)” 可將輸入輸出劃分成四種類型:

  • chain-of-thought : and few-shot: (圖中左上)
    • 輸入:指令 + 問題
    • 輸出:答案
  • chain-of-thought : and few-shot: (圖中右上)
    • 輸入:指令 + CoT引導(by reasoning step by step) + 問題
    • 輸出:理由 + 答案
  • chain-of-thought: and few-shot: (圖中左下)
    • 輸入:指令 + 示例問題 + 示例問題回答 + 指令 + 問題
    • 輸出:答案
  • chain-of-thought: and few-shot: (圖中右下)
    • 輸入:指令 + CoT引導 + 示例問題 + 示例問題理由 + 示例問題回答 + 指令 + CoT引導 + 問題
    • 輸出:理由 + 答案

(3) 「訓練過程」:采用恒定的學習率以及Adafactor優(yōu)化器進行訓練;同時會將多個訓練樣本“打包”成一個訓練樣本,這些訓練樣本直接會通過一個特殊的“結(jié)束token”進行分割。訓練時候在每個指定的步數(shù)會在“保留任務”上進行模型評估,保存最佳的checkpoint。

d7f38ada-6ba6-11ed-8abf-dac502259ad0.png

保留任務

盡管微調(diào)的任務數(shù)量很多,但是相比于語言模型本身的預訓練過程,計算量小了非常多,只有0.2%。所以通過這個方案,大公司訓練好的語言模型可以被再次有效的利用,我們只需要做好“微調(diào)”即可,不用重復耗費大量計算資源再去訓一個語言模型。

d81381dc-6ba6-11ed-8abf-dac502259ad0.png

微調(diào)過程與預訓練本身的計算量對比

3. 一些結(jié)論

(1) 微調(diào)很重要

d923992c-6ba6-11ed-8abf-dac502259ad0.png

直接預測(紅框)微調(diào)(綠框)

與不微調(diào)相比,通過基于指令的微調(diào)(flan)可以大幅度提高語言模型的效果。

(2) 模型越大效果越好

d9499398-6ba6-11ed-8abf-dac502259ad0.png

模型大小與任務數(shù)量對效果的影響

伴隨模型體積的增加(上圖左), 尤其是指數(shù)級的增加,比如從8B->62B,再從62B->540B,不論是否微調(diào),效果都有非常顯著的提升,而且還沒有看到收斂的信號,可能如果有了 “萬億”參數(shù)的模型,效果還能繼續(xù)提升。

(3) 任務越多效果越好

伴隨任務數(shù)量的增加(上圖右),模型的性能也會跟著增加,但是當任務數(shù)量超過282個之后,提升就不是很明顯了。因為繼續(xù)增加新的任務,尤其任務形式跟之前一樣,不會給模型帶來新的知識;多任務微調(diào)的本質(zhì)是模型能夠更好的把從預訓練學到的知識進行表達,超過一定任務之后,繼續(xù)新增相似的任務,知識的表達能力不會繼續(xù)有很大的收益。進一步統(tǒng)計全部微調(diào)數(shù)據(jù)集的token數(shù),發(fā)現(xiàn)只占到了預訓練數(shù)據(jù)token數(shù)的0.2%,這表明還是有很多的知識沒有在微調(diào)階段重新被激發(fā)。

(4) 混雜CoT相關的任務很重要

d955b5a6-6ba6-11ed-8abf-dac502259ad0.png

保留任務中 CoT相關的任務 以及 非CoT相關的任務

盡管在1800多個任務中只有9個需要推理再給出回答的任務(CoT任務),但是混雜了這9個任務之后對整個模型的提升很大。在針對CoT相關任務的預測上,如果在微調(diào)中混淆CoT任務能帶來明顯的提升(左圖中藍色和綠色線);在針對非CoT相關任務的預測上,如果在微調(diào)中混淆了CoT任務也不會對模型帶來傷害(右圖中藍色和綠色線)。

d966f668-6ba6-11ed-8abf-dac502259ad0.png

zero-shot上是否引入CoT的對比
(5) 整合起來

最終在多個不同尺寸的模型上進行實驗,都可以獲得一致性的結(jié)論:引入Flan微調(diào)方案,可以很好提高語言模型在超大規(guī)模任務上的整體效果。

d975968c-6ba6-11ed-8abf-dac502259ad0.png

不同版本的模型

總結(jié)一下,這篇工作提出了Flan的微調(diào)框架,核心有四點:統(tǒng)一的輸入輸出格式(4種類型),引入chain-of-thought,大幅提高任務數(shù)量,大幅提高模型體積;實現(xiàn)了用一個模型來解決超過1800種幾乎全部的NLP任務,通過較低的成本,極大發(fā)掘了現(xiàn)有語言模型的泛化性能,讓大家看到了通用模型的希望,即「One Model for ALL Tasks」。


審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1807

    瀏覽量

    60519
  • 模型
    +關注

    關注

    1

    文章

    3752

    瀏覽量

    52109
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23280

原文標題:谷歌提出Flan-T5,一個模型解決所有NLP任務

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    軟硬全開源 + 擴展無邊界!涂鴉 T5 AI 口袋機,讓 AI + IoT 創(chuàng)意在掌心生長

    當AI大模型、游戲手柄、顯示屏、音頻系統(tǒng)、攝像頭、傳感器、4G蜂窩,以及涂鴉T5芯片被塞進同一個口袋,會激發(fā)出什么樣的創(chuàng)造力?答案就在涂鴉T5AI口袋機(Tuya-
    的頭像 發(fā)表于 01-22 18:08 ?459次閱讀
    軟硬全開源 + 擴展無邊界!涂鴉 <b class='flag-5'>T5</b> AI 口袋機,讓 AI + IoT 創(chuàng)意在掌心生長

    谷歌評論卡,碰碰即可完成谷歌評論 #谷歌評論卡 #NFC標簽 #nfc卡

    谷歌
    深圳市融智興科技有限公司
    發(fā)布于 :2026年01月15日 17:02:00

    每年10億美元,蘋果與谷歌官宣合作,Gemini大模型注入Siri

    該協(xié)議,下代蘋果基礎模型(Apple Foundation Models)將基于谷歌的Gemini模型和云技術。 ? 蘋果:借Gemini之力,加速AI追趕 ? 長期以來,蘋果在AI
    的頭像 發(fā)表于 01-13 14:59 ?1553次閱讀

    國內(nèi)七大基于大模型的發(fā)射任務調(diào)度與過程保障分系統(tǒng)軟件介紹

    )、多模態(tài)AI、數(shù)字孿生與強化學習等前沿技術,聚焦發(fā)射任務的智能規(guī)劃、資源調(diào)度、過程保障與應急響應,是當前全球航天領域智能化升級的核心載體。 ? ?系統(tǒng)軟件供應可以來這里,這個首肌開始是幺伍扒,中間是幺幺叁叁,最后一個是泗柒泗
    的頭像 發(fā)表于 12-24 11:08 ?272次閱讀

    基于大模型的發(fā)射任務調(diào)度與過程保障分系統(tǒng)平臺的應用與未來發(fā)展

    、智能決策算法及數(shù)字孿生等關鍵技術,實現(xiàn)發(fā)射任務效率、安全性與可靠性的三重躍升。 ? ?系統(tǒng)軟件供應可以來這里,這個首肌開始是幺伍扒,中間是幺幺叁叁,最后一個是泗柒泗泗,按照數(shù)字順序組合就可以找到。 ? ?應用案例 ? ?目前
    的頭像 發(fā)表于 12-24 10:36 ?259次閱讀

    模型驅(qū)動的發(fā)射任務智能調(diào)度分系統(tǒng)軟件平臺的應用與未來發(fā)展

    功能、應用案例及未來趨勢四維度進行系統(tǒng)闡述。 ? ?應用案例 ? ?北京華盛恒輝科技和北京五木恒潤科技推出的大模型驅(qū)動的發(fā)射任務智能調(diào)度分系統(tǒng),廣泛適用于各行業(yè)等領域,可出色完成大模型
    的頭像 發(fā)表于 12-19 14:50 ?301次閱讀

    谷歌正式推出最新Gemini 3 AI模型

    今天我們正式推出 Gemini 3,這是我們迄今為止最智能的模型,能夠幫助用戶實現(xiàn)任何創(chuàng)意。Gemini 3 Pro 基于最先進的推理技術,與之前的版本相比,它在所有主要的 AI 基準測試中都取得了無與倫比的結(jié)果,尤其是在編程方面也超越了 2.5 Pro,能夠熟練地處理智
    的頭像 發(fā)表于 11-24 11:10 ?1223次閱讀
    <b class='flag-5'>谷歌</b>正式推出最新Gemini 3 AI<b class='flag-5'>模型</b>

    谷歌AlphaEarth和維智時空AI大模型的核心差異

    谷歌AlphaEarth和維智時空AI大模型在技術理念上存在諸多共性,但兩者在目標尺度、數(shù)據(jù)來源、技術實現(xiàn)和應用模式上存在顯著差異。
    的頭像 發(fā)表于 10-22 14:50 ?882次閱讀

    谷歌AlphaEarth和維智時空AI大模型的技術路徑

    谷歌AlphaEarth和維智時空AI大模型在應用場景和技術實現(xiàn)上各有側(cè)重,但兩者在底層技術理念上存在顯著共性。
    的頭像 發(fā)表于 10-22 14:48 ?908次閱讀

    小白學大模型:國外主流大模型匯總

    )領域。論文的核心是提出種名為Transformer的全新模型架構,它完全舍棄了以往序列模型(如循環(huán)神經(jīng)網(wǎng)絡RNNs和卷積神經(jīng)網(wǎng)絡CNNs)中常用的循環(huán)和卷積結(jié)構
    的頭像 發(fā)表于 08-27 14:06 ?958次閱讀
    小白學大<b class='flag-5'>模型</b>:國外主流大<b class='flag-5'>模型</b>匯總

    【HZ-T536開發(fā)板免費體驗】3 - Cangjie Magic調(diào)用視覺語言大模型(VLM)真香,是不是可以沒有YOLO和OCR了?

    基于倉頡編程語言構建的 LLM Agent 開發(fā)框架,其主要特點包括:Agent DSL、支持 MCP 協(xié)議,支持模塊化調(diào)用,支持任務智能規(guī)劃。Cangjie Agent DSL 是
    發(fā)表于 08-01 22:15

    模型自適應控制在永磁同步電機轉(zhuǎn)速中的仿真研究

    摘要:針對永磁同步電機非線性、時變不確定性及難以建立精確的數(shù)學模型等問題,不同于動態(tài)線性時變模型替代般非線性系統(tǒng),提出種基于模糊過程和系
    發(fā)表于 06-25 13:01

    如何將FA模型開發(fā)的聲明式范式應用切換到Stage模型

    模型切換概述 本文介紹如何將FA模型開發(fā)的聲明式范式應用切換到Stage模型,您需要完成如下動作: 工程切換:新建
    發(fā)表于 06-04 06:22

    IGBT模塊吸收回路分析模型

    盡管開關器件內(nèi)部工作機理不同,但對于吸收電路的分析而言,則只需考慮器件的外特性,IGBT關斷時模型可以等效為電壓控制的電流源,開通時可以等效為電壓控制的電壓源。下面以下圖所示的斬波器為例提出
    的頭像 發(fā)表于 05-21 09:45 ?1258次閱讀
    IGBT模塊吸收回路分析<b class='flag-5'>模型</b>

    谷歌代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?

    電子發(fā)燒友網(wǎng)報道(文 / 李彎彎)日前,谷歌在 Cloud Next 大會上,隆重推出了最新代 TPU AI 加速芯片 ——Ironwood。據(jù)悉,該芯片預計于今年晚些時候面向 Google
    的頭像 發(fā)表于 04-12 00:57 ?3721次閱讀