91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

全新科學(xué)問答數(shù)據(jù)集ScienceQA讓深度學(xué)習(xí)模型推理有了思維鏈

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 作者:智能感知與物聯(lián)網(wǎng) ? 2022-11-01 16:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在回答復(fù)雜的問題時,人類可以理解不同模態(tài)的信息,并形成一個完整的思維鏈(Chain of Thought, CoT)。深度學(xué)習(xí)模型是否可以打開「黑箱」,對其推理過程提供一個思維鏈呢?近日,UCLA 和艾倫人工智能研究院(AI2)提出了首個標注詳細解釋的多模態(tài)科學(xué)問答數(shù)據(jù)集 ScienceQA,用于測試模型的多模態(tài)推理能力。在 ScienceQA 任務(wù)中,作者提出 GPT-3 (CoT) 模型,即在 GPT-3 模型中引入基于思維鏈的提示學(xué)習(xí),從而使得模型能在生成答案的同時,生成相應(yīng)的推理解釋。GPT-3 (CoT) 在 ScienceQA 上實現(xiàn)了 75.17% 的準確率;并且人類評估表明,其可以生成較高質(zhì)量的解釋。

像人類一樣有效地學(xué)習(xí)并完成復(fù)雜的任務(wù)是人工智能追求的長遠目標之一。人類在決策過程中可以遵循一個完整的思維鏈(CoT)推理過程,從而對給出的答案做出合理的解釋。

然而,已有的機器學(xué)習(xí)模型大多依賴大量的輸入 - 輸出樣本訓(xùn)練來完成具體的任務(wù)。這些黑箱模型往往直接生成最終的答案,而沒有揭示具體的推理過程。

科學(xué)問答任務(wù)(Science Question Answering)可以很好地診斷人工智能模型是否具有多步推理能力和可解釋性。為了回答科學(xué)問題,一個模型不僅需要理解多模態(tài)內(nèi)容,還需要提取外部知識以得出正確答案。同時,一個可靠的模型還應(yīng)該給出揭示其推理過程的解釋。然而,目前的科學(xué)問答數(shù)據(jù)集大多缺乏對答案的詳細解釋,或者局限于文字模態(tài)。

因此,作者收集了全新的科學(xué)問答數(shù)據(jù)集 ScienceQA,它包含了 21,208 道來自中小學(xué)科學(xué)課程的問答多選題。一道典型的問題包含多模態(tài)的背景(context)、正確的選項、通用的背景知識(lecture)以及具體的解釋(explanation)。

3cf72216-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 數(shù)據(jù)集的一個例子。

要回答上圖所示的例子,我們首先要回憶關(guān)于力的定義:「A force is a push or a pull that ... The direction of a push is ... The direction of a pull is ... 」,然后形成一個多步的推理過程:「The baby’s hand applies a force to the cabinet door. → This force causes the door to open. → The direction of this force is toward the baby’s hand. 」,最終得到正確答案:「This force is a pull. 」。

在 ScienceQA 任務(wù)中,模型需要在預(yù)測答案的同時輸出詳細地解釋。在本文中,作者利用大規(guī)模語言模型生成背景知識和解釋,作為一種思維鏈(CoT)來模仿人類具有的多步推理能力。

實驗表明,目前的多模態(tài)問答方法在 ScienceQA 任務(wù)不能取得很好的表現(xiàn)。相反,通過基于思維鏈的提示學(xué)習(xí),GPT-3 模型能在 ScienceQA 數(shù)據(jù)集上取得 75.17% 的準確率,同時可以生成質(zhì)量較高的解釋:根據(jù)人類評估,其中 65.2% 的解釋相關(guān)、正確且完整。思維鏈也可以幫助 UnifiedQA 模型在 ScienceQA 數(shù)據(jù)集上取得 3.99% 的提升。

1、ScienceQA 數(shù)據(jù)集

數(shù)據(jù)集統(tǒng)計

ScienceQA 的主要統(tǒng)計信息如下所示。

3dda2b56-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 數(shù)據(jù)集的主要信息

ScienceQA 包含21208個例子, 其中有9122個不同的問題(question)。10332 道(48.7%)有視覺背景信息,10220 道(48.2%)有文本背景信息,6532 道(30.8%)有視覺 + 文本的背景信息。絕大部分問題標注有詳細的解釋:83.9% 的問題有背景知識標注(lecture),而 90.5% 的問題有詳細的解答(explanation)。

3f230d0c-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 數(shù)據(jù)集中問題和背景分布。

數(shù)據(jù)集主題分布

不同于已有的數(shù)據(jù)集,ScienceQA 涵蓋自然科學(xué)、社會科學(xué)和語言學(xué)三大學(xué)科分支,包含 26 個主題(topic)、127 個分類(category)和 379 個知識技能(skill)。

3f38e23a-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 的主題分布。

數(shù)據(jù)集詞云分布

如下圖的詞云分布所示,ScienceQA 中的問題具有豐富的語義多樣性。模型需要理解不同的問題表達、場景和背景知識。

40810208-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 的詞云分布。

數(shù)據(jù)集比較

ScienceQA 是第一個標注詳細解釋的多模態(tài)科學(xué)問答數(shù)據(jù)集。相比于已有的數(shù)據(jù)集,ScienceQA 的數(shù)據(jù)規(guī)模、題型多樣性、主題多樣性等多個維度體現(xiàn)了優(yōu)勢。

41ec4cb0-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 數(shù)據(jù)集與其它科學(xué)問答數(shù)據(jù)集的比較。

2、模型和方法

Baselines

作者在 ScienceQA 數(shù)據(jù)集了評估不同的基準方法,包括 VQA 模型如 Top-Down Attention、MCAN、BAN、DFAF、ViLT、Patch-TRM 和 VisualBERT,大規(guī)模語言模型如 UnifiedQA 和 GPT-3,以及 random chance 和 human performance。對于語言模型 UnifiedQA 和 GPT-3,背景圖片會被轉(zhuǎn)換成文本形式的注釋(caption)。

GPT-3 (CoT)

最近的研究工作表明,在給定合適的提示后,GPT-3 模型可以在不同的下游任務(wù)表現(xiàn)出卓越的性能。為此,作者提出 GPT-3 (CoT) 模型,在提示中加入思維鏈(CoT),使得模型在生成答案的同時,可以生成對應(yīng)的背景知識和解釋。

具體的提示模板如下圖所示。其中 Ii 表示訓(xùn)練例子,It 表示測試例子。訓(xùn)練例子包含問題(Question)、選項(Options)、背景(Context)和答案(Answer)元素,其中答案由正確答案、背景知識(Lecture)和解釋(Explanation)組成。GPT-3 (CoT) 會根據(jù)輸入的提示信息,補全測試例子的預(yù)測答案、背景知識和解釋。

42167fa8-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 采用的提示模板。

3、實驗與分析

實驗結(jié)果

不同的基準和方法在 ScienceQA 測試集上的準確率結(jié)果如下表所示。當前最好的 VQA 模型之一的 VisualBERT 只能達到 61.87% 的準確率。在訓(xùn)練的過程引入 CoT 數(shù)據(jù),UnifiedQA_BASE 模型可以實現(xiàn) 74.11% 的準確率。而 GPT-3 (CoT) 在 2 個訓(xùn)練例子的提示下,實現(xiàn)了 75.17% 的準確率,高于其它基準模型。人類在 ScienceQA 數(shù)據(jù)集上表現(xiàn)優(yōu)異,可以達到 88.40% 的總體準確率,并且在不同類別的問題上表現(xiàn)穩(wěn)定。

4234ac9e-5860-11ed-a3b6-dac502259ad0.png

不同的方法在 ScienceQA 測試集上的結(jié)果。

生成解釋的評估

作者用自動評估指標如 BLEU-1、BLEU-2、ROUGE-L 和 Sentence Similarity 評估了不同方法生成的解釋。由于自動評估指標只能衡量預(yù)測結(jié)果和標注內(nèi)容的相似性,因此作者進一步采用了人工評估的方法,來評估生成解釋的相關(guān)性、正確性和完整性。可以看到,GPT-3 (CoT) 生成的解釋中 65.2% 符合了 Gold 標準。

4273fffc-5860-11ed-a3b6-dac502259ad0.png

不同評估方法對生成解釋的結(jié)果。

不同的提示模板

作者比較了不同的提示模板對 GPT-3 (CoT) 準確率的影響??梢钥吹皆?QAM-ALE 的模板下,GPT-3 (CoT) 可以獲得最大的平均準確率和最小的方差。另外,GPT-3 (CoT) 在 2 個訓(xùn)練例子的提示下,表現(xiàn)最佳。

429455ea-5860-11ed-a3b6-dac502259ad0.png

不同提示模板的結(jié)果比較。

模型上限

為了探索 GPT-3 (CoT) 模型的性能上限,作者把標注的背景知識和解釋加入模型的輸入(QCMLE*-A)。我們可以看到 GPT-3 (CoT) 可以實現(xiàn)高達 94.13% 的準確率。這也提示了模型提升的一個可能方向:模型可以進行分步推理,即先檢索到準確的背景知識和生成準確的解釋,然后把這些結(jié)果作為輸入。這個過程和人類解決復(fù)雜問題的過程很相似。

42a49f5e-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 模型的性能上限。

不同的 ALE 位置

作者進一步討論了GPT-3 (CoT) 在生成預(yù)測時,不同的 ALE 位置對結(jié)果的影響。在 ScienceQA 上的實驗結(jié)果表明,如果 GPT-3 (CoT) 先生成背景知識 L 或解釋 E,再生成答案 A,其預(yù)測準確率會大幅下降。其主要原因是背景知識 L 和解釋 E 有較多的詞語數(shù)量,如果先生成 LE,GPT-3 模型有可能用完最大詞數(shù),或者提前停止生成文本,從而不能得到最終的答案 A。

42e3e650-5860-11ed-a3b6-dac502259ad0.png

不同的 LE 位置。

成功案例

如下 4 個例子中,GPT-3 (CoT)不但能生成正確的答案,也能給出相關(guān)、正確且完整的解釋。這說明 GPT-3 (CoT) 在 ScienceQA 數(shù)據(jù)集上表現(xiàn)出較強的多步推理和解釋能力。

42f6a452-5860-11ed-a3b6-dac502259ad0.png

43b82d0c-5860-11ed-a3b6-dac502259ad0.png

43e1b64a-5860-11ed-a3b6-dac502259ad0.png

440c169c-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 生成正確答案和解釋的例子。

失敗案例 I

在下面的三個例子中,GPT-3 (CoT)雖然生成了正確的答案,但是生成的解釋不相關(guān)、不正確或者不完整。這說明 GPT-3 (CoT) 對于生成邏輯一致的長序列還面臨較大的困難。

4427c04a-5860-11ed-a3b6-dac502259ad0.png

44d70ed8-5860-11ed-a3b6-dac502259ad0.png

44f11b70-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 能生成正確答案、但是生成的解釋不正確的例子。

失敗案例 II

在下面的四個例子中,GPT-3 (CoT) 不能生成正確的答案,也不能生成正確的解釋。其中的原因有:(1)當前的 image captioning 模型還不能準確地描述示意圖、表格等圖片的語義信息,如果用圖片注釋文本表示圖片,GPT-3 (CoT) 還不能很好地回答包含圖表背景的問題;(2)GPT-3 (CoT) 生成長序列時,容易出現(xiàn)前后不一致(inconsistent)或不連貫(incoherent)的問題;(3)GPT-3 (CoT) 還不能很好地回答需要特定領(lǐng)域知識的問題。

455a2bec-5860-11ed-a3b6-dac502259ad0.png

4578dfec-5860-11ed-a3b6-dac502259ad0.png

46242bea-5860-11ed-a3b6-dac502259ad0.png

463ff8d4-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 能生成錯誤答案和解釋的例子。

4、結(jié)論與展望

作者提出了首個標注詳細解釋的多模態(tài)科學(xué)問答數(shù)據(jù)集 ScienceQA。ScienceQA 包含 21208 道來自中小學(xué)科學(xué)學(xué)科的多選題,涵蓋三大科學(xué)領(lǐng)域和豐富的話題,大部分問題標注有詳細的背景知識和解釋。ScienceQA 可以評估模型在多模態(tài)理解、多步推理和可解釋性方面的能力。作者在 ScienceQA 數(shù)據(jù)集上評估了不同的基準模型,并提出 GPT-3 (CoT) 模型在生成答案的同時,可以生成相應(yīng)的背景知識和解釋。大量的實驗分析和案例分析對模型的改進提出了有利的啟發(fā)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:NeurIPS 2022 | 首個標注詳細解釋的多模態(tài)科學(xué)問答數(shù)據(jù)集,深度學(xué)習(xí)模型推理有了思維鏈

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    使用NORDIC AI的好處

    CPU 快 15× 能效最高可比最近的競品 NPU 好 8×,推理速度快 7×。[Axon NPU 技術(shù)頁] 開發(fā)門檻低、工具完整 Nordic Edge AI Lab :只需準備好數(shù)據(jù)
    發(fā)表于 01-31 23:16

    強化學(xué)習(xí)自動駕駛模型學(xué)習(xí)更快嗎?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛大模型訓(xùn)練時,有的技術(shù)方案會采用模仿學(xué)習(xí),而有些會采用強化學(xué)習(xí)。同樣作為大模型的訓(xùn)練方式,強化學(xué)習(xí)
    的頭像 發(fā)表于 01-31 09:34 ?646次閱讀
    強化<b class='flag-5'>學(xué)習(xí)</b>會<b class='flag-5'>讓</b>自動駕駛<b class='flag-5'>模型</b><b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對當前大型推理模型(LRM)進行了深刻的剖析,超越表面的性能宣傳,直指其技術(shù)本質(zhì)和核心局限。以下是基于原文的詳細技術(shù)原理、關(guān)鍵
    的頭像 發(fā)表于 01-19 15:33 ?497次閱讀
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    中科曙光推出科學(xué)模型一站式開發(fā)平臺OneScience

    for Science熱點模型數(shù)據(jù),支持地球科學(xué)、生物信息、流體仿真、材料化學(xué)等領(lǐng)域用戶進一步開發(fā)新模型,并實現(xiàn)百倍提升
    的頭像 發(fā)表于 10-28 17:29 ?916次閱讀

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保護科學(xué)

    損壞的風(fēng)險(所有浸入水中的技術(shù)設(shè)備都是如此),這意味著數(shù)據(jù)可能會在不知不覺中丟失,而基線數(shù)據(jù)的后續(xù)缺口可能會妨礙科學(xué)家得出具有統(tǒng)計意義的可靠結(jié)論。 在邊緣部署
    發(fā)表于 10-27 09:18

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定基礎(chǔ),該模型近日在 Hugging Face 的物理
    的頭像 發(fā)表于 09-23 15:19 ?1279次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學(xué)應(yīng)用

    和靈感與諾貝爾獎和重大科學(xué)發(fā)現(xiàn) 科學(xué)發(fā)現(xiàn)中,直覺是重要的起點。是基于經(jīng)驗情感及知識的模式識別和類比能力,而不是基于邏輯和推理。 靈感通常是新的、創(chuàng)意的想法或者突破性的
    發(fā)表于 09-17 11:45

    亞馬遜云科技現(xiàn)已上線OpenAI開放權(quán)重模型

    開放權(quán)重模型,向數(shù)百萬亞馬遜云科技客戶開放。 客戶可利用這些全新開放權(quán)重模型的先進推理能力,支持Agentic工作流、代碼生成、科學(xué)分析和數(shù)
    的頭像 發(fā)表于 08-06 19:29 ?849次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    網(wǎng)絡(luò)智能診斷平臺。通過對私有化網(wǎng)絡(luò)數(shù)據(jù)的定向訓(xùn)練,信而泰打造高性能、高可靠性的網(wǎng)絡(luò)診斷模型,顯著提升了AI輔助診斷的精準度與實用性。該方案實現(xiàn)網(wǎng)絡(luò)全流量
    發(fā)表于 07-16 15:29

    模型推理顯存和計算量估計方法研究

    方法。 一、引言 大模型推理是指在已知輸入數(shù)據(jù)的情況下,通過深度學(xué)習(xí)模型進行預(yù)測或分類的過程。然
    發(fā)表于 07-03 19:43

    CoT 數(shù)據(jù)如何模型學(xué)會一步一步思考?

    目前,大模型的回答路徑基本遵循 input-output 的方式,在面對復(fù)雜任務(wù)時表現(xiàn)不佳。反之,人類會遵循一套有條理的思維流程,逐步推理得出正確答案。這種差異促使人們深入思考:如何才能讓大
    的頭像 發(fā)表于 04-24 16:51 ?1363次閱讀
    CoT <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>如何<b class='flag-5'>讓</b>大<b class='flag-5'>模型</b>學(xué)會一步一步思考?

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件端側(cè)AI模型接入得心應(yīng)手

    Studio提供最優(yōu)解。Neuron Studio可針對模型到應(yīng)用,提供一站式、全路、自動化的開發(fā)協(xié)助,不僅AI應(yīng)用開發(fā)的全流程可視化,更帶來整個多種工具的一站式開發(fā)能力,還支
    發(fā)表于 04-13 19:52

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命 Google 發(fā)布 Ironwood,這是其第七代張量處理單元 (TPU),專為推理而設(shè)計。這款功能強大的 AI
    的頭像 發(fā)表于 04-12 11:10 ?3745次閱讀
    谷歌第七代TPU Ironwood<b class='flag-5'>深度</b>解讀:AI<b class='flag-5'>推理</b>時代的硬件革命

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語言模型(LLM)的推理能力成了最熱門的話題之一,大量優(yōu)化推理能力的新策略開始出現(xiàn),包括擴展推理時間計算、運用強化學(xué)習(xí)
    的頭像 發(fā)表于 04-03 12:09 ?1624次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現(xiàn)狀

    易華錄智慧交管大模型實現(xiàn)交通數(shù)據(jù)價值的深度挖掘與應(yīng)用

    易華錄將多年積累的數(shù)據(jù)治理經(jīng)驗與DeepSeek卓越的推理能力深度融合,實現(xiàn)交通數(shù)據(jù)價值的深度
    的頭像 發(fā)表于 03-08 13:48 ?1517次閱讀