91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Net5.5G智能云網(wǎng)即將全面發(fā)布,打造新一代數(shù)字基礎設施

華為數(shù)據(jù)通信 ? 來源:智能感知與物聯(lián)網(wǎng)技術研 ? 2024-02-26 10:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

中科大團隊開發(fā)首個通用的大語言模型分子交互學習框架,在多個數(shù)據(jù)集超 4,000,000 個分子對上驗證了其可靠性。

簡述

分子關系學習(Molecular Relational Learning)旨在理解和建模分子對的交互作用,如分子對交互(Drug-drug Interaction,DDI)、溶液-溶劑交互(Solution-solvent Interaction)。近來,憑借豐富的知識儲備和優(yōu)秀的推演能力,大型語言模型(LLMs)已成為實現(xiàn)分子關系高效學習的重要工具。

盡管這一方法頗有成效,但當前范式的主要問題是數(shù)據(jù)利用的不充分。如下圖(a)所示,當前范式主要依賴于文本數(shù)據(jù)(如 SMILES),未能充分且顯式地利用分子圖中固有的豐富結構信息。

加劇這一問題的是統(tǒng)一學習框架的缺失,因為其阻礙了從各個數(shù)據(jù)集中學習到的關鍵交互信息與底層交互邏輯的高效共享和整合。如下圖 b 所示,這一缺失擴大了數(shù)據(jù)利用的不充分的影響,使得 LLMs 因高度過擬合的風險而無法建模那些廣泛存在的、數(shù)據(jù)量較少的分子交互任務。

wKgZomXb-xiAG2xwAAQuCmS3G-g797.jpg

▲ 圖1:當前基于 LLMs 的分子交互學習范式與 MolTC 的比較。(a)現(xiàn)行方法的通用范式;(b)將當前范式應用于樣本量較少的任務時所帶來的挑戰(zhàn);(c)我們的 MolTC 的架構。

為了緩解這一問題,我們提出了一個通用的、基于 LLM 的多模態(tài)分子交互學習框架,MolTC(Molecular inTeraction Modeling enhanced by Chain-of-thought theory)。如上圖 c 所示,MolTC 通過圖編碼器(Encoder)和映射器(Projector)高效地建模分子圖信息,并創(chuàng)新性地提出了多層級思維鏈(Multi-hierarchical Chain-of-thought)的概念來引導訓練范式的優(yōu)化。

此外,為了加強數(shù)據(jù)間的信息共享,我們?yōu)槠湓O計了一個新穎的動態(tài)參數(shù)共享策略,以實現(xiàn)效率和精度的雙贏。同時,鑒于這一領域數(shù)據(jù)集的缺失,我們還構建了一個全面的分子交互指令數(shù)據(jù)集,MoT-instructions,用于提高當前基于 LLMs 的學習框架(包擴我們的 MolTC)對分子交互任務的理解能力。

我們在涉及超過 4,000,000 個分子對的十二個不同領域數(shù)據(jù)集上進行了驗證實驗。結果表明,我們的方法優(yōu)于當前基于 GNN 的、基于(除 GNN 外)其它傳統(tǒng)深度學習架構的、和基于 LLMs 的基線方法。

多模態(tài)輸入框架

我們首先簡要介紹上圖 c 中所示的 MolTC 框架。其中,Graph Encoder 采用傳統(tǒng)的圖神經(jīng)網(wǎng)絡(GNN)架構;Projector 采用在視覺領域常用于多模態(tài)對齊的 Querying Transformers (Q-Former)架構,作為 backbone 的 LLM 則是采用在生化任務中表現(xiàn)突出的 Galactica。更多細節(jié)勞請移步我們的論文和代碼。

基于多層級思維鏈的訓練范式

我們重點介紹基于多層級思維鏈的 MolTC 訓練范式。首先,考慮到從分子對中直接生成復雜相互作用的挑戰(zhàn)性,處于上層的思維鏈指導 MolTC 的預訓練過程優(yōu)先識別并按次序輸出輸入分子對中,每個分子的關鍵生化性質(zhì),為準確預測它們的交互奠定基礎。具體而言,在預訓練階段,Prompts 的統(tǒng)一設計如下:

wKgZomXb-xeACnZ9AADkUPAur2E880.jpg

預訓練階段的數(shù)據(jù)來自多個權威的、包含分子-性質(zhì)對的生化數(shù)據(jù)庫如 Drugbank 和 PubChem。為了提高 MolTC 在不同分子交互場景下的泛化能力,我們對上述數(shù)據(jù)庫中的分子進行隨機組合,來構造不同的分子對。

隨后,在微調(diào)階段,針對定性分子交互分析任務,Prompts 直接根據(jù)特定的下游任務進行定制。而針對傳統(tǒng) LLMs 較難處理的定量分析任務,下層的思維鏈指導 MolTC 優(yōu)先為目標數(shù)值預估一個大致的范圍,然后逐步將其細化到一個精確的值。以溶液-溶劑交互任務為例,其 Prompts 的設計如下:

wKgaomXb-xiAZAbwAAFjJa2wiP0534.jpg

動態(tài)參數(shù)共享策略

為了提高上述訓練范式的效率,MolTC 引入了一種新穎的參數(shù)共享策略。具體而言,我們首先考慮分子交互任務的以下關鍵屬性:

(1)交互中分子角色的重要性。例如,在溶液-溶劑交互場景中,水和乙醇互為溶劑會產(chǎn)生不同的能量釋放。某些時候,角色的顛倒甚至會導致交互反應的停滯。

(2)交互中分子順序的重要性。例如,在藥物對交互場景中,藥物引入順序的不同可能會導致不同的治療效果。

(3)分子角色/順序帶來的特征重要性的差異。例如,在發(fā)色團-溶液對中,一個化學基團在溶液內(nèi)會對交互屬性產(chǎn)生關鍵的影響,但其在發(fā)色團中時,則可能對交互無足輕重。

wKgZomXb-xiAfUCpAAGMqSlMQhw455.jpg

▲ 圖2:應用動態(tài)參數(shù)共享策略后的的 MolTC 訓練范式。其中,鏈環(huán)表示兩個模塊之間的參數(shù)共享;雪花表示參數(shù)凍結;火焰表示參數(shù)更新。

這些屬性自然地啟發(fā) MolTC 適應性地優(yōu)先考慮倆個分子內(nèi)的不同信息,即根據(jù)角色和順序為分子創(chuàng)建獨特的編碼。具體而言,為了學習到這種差異性,同時維持分子對中學習到的共性信息的共享,我們引入了如下參數(shù)共享策略:

(1)考慮 Graph Encoder 專注于提取底層的分子圖結構,并未將語義與分子結構進行對齊,因此,在預訓練和微調(diào)階段,MolTC 共享倆個 Graph Encoder 的參數(shù),以增強其學習效率。

(2)考慮 Projector 專注于實現(xiàn)分子結構與語義信息的對齊,因此,在預訓練階段,MolTC 共享倆個 Projector 的參數(shù)以提高系統(tǒng)的泛化性和魯棒性;在微調(diào)階段,MolTC 終止這一共享,實現(xiàn)根據(jù)不同下游任務中的分子角色和順序量身定制的語義映射。

MoT-instruction數(shù)據(jù)集開發(fā)

在 MolTC 的訓練過程中,鑒于當前缺乏一個通用的、為大模型分子關系學習量身定制的指令數(shù)據(jù)集,我們首先給出這一數(shù)據(jù)集應當滿足的關鍵性質(zhì):(1)它應包含橫跨多個領域的、可以進行交互的大量分子對;(2)它應詳細描述這些分子對中每個分子的重要生化屬性,以及(3)它應根據(jù)思維鏈的形式闡述分子對的交互性質(zhì)。

具體來說,我們通過以下三步構建上述 MoT-instructions 數(shù)據(jù)集:

(1)我們首先收集多個具有代表性的分子交互數(shù)據(jù)集,并從 DrugBank 和 PubChem 等權威生化數(shù)據(jù)庫中獲取這些交互所涉及分子的生化屬性;

(2)隨后,我們進行最優(yōu)指令確定。具體而言,我們根據(jù)訓練 MolTC 得到的預測性能作為指標,來對定量交互 instructions 中的數(shù)值區(qū)間進行設定。并結合該值的統(tǒng)計數(shù)據(jù)(如均值和方差)得出最優(yōu)區(qū)間設定和統(tǒng)計數(shù)據(jù)之間的規(guī)律,推廣至更多的定量交互數(shù)據(jù)集中;

(3)最后,我們將交互涉及的每個屬性單獨抽取至一個獨立的數(shù)據(jù)空間,以在排除交互屬性中缺失值、模糊值的干擾下,不浪費分子對所提供的其他有用信息。

實驗

為了更全面地評估 MolTC 的有效性,我們將基線算法分為三類:基于 GNN 的、基于其他深度學習模型的以及基于 LLMs 的方法。部分定性和定量的實驗結果如下表所示。更多結果如消融實驗結果煩請移步我們的文章或代碼。

wKgaomXb-xiAAnDsAAKQuxqhQh8193.jpg

▲ 表1:定性實驗結果(以藥物對交互任務為例)

wKgZomXb-xiAC2skAAKYl0_5Cng646.jpg

▲ 表2:定量實驗結果(以溶液溶劑交互任務為例)




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3957

    瀏覽量

    142731
  • 語言模型
    +關注

    關注

    0

    文章

    571

    瀏覽量

    11323
  • GNN
    GNN
    +關注

    關注

    1

    文章

    31

    瀏覽量

    6790
  • LLM
    LLM
    +關注

    關注

    1

    文章

    346

    瀏覽量

    1337

原文標題:MWC 2024 | 倒計時1天!Net5.5G智能云網(wǎng)即將全面發(fā)布,打造新一代數(shù)字基礎設施

文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數(shù)據(jù)通信】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    華為面向Net5.5G產(chǎn)品方案推動產(chǎn)業(yè)加速邁向智能時代

    智能化演進方向。華為數(shù)據(jù)通信產(chǎn)品線副總裁趙志鵬發(fā)表主題演講,以領先的面向Net5.5G產(chǎn)品方案推動產(chǎn)業(yè)加速邁向智能時代。
    的頭像 發(fā)表于 03-05 11:31 ?512次閱讀

    華為在MWC 2026升級面向Net5.5G的IP承載網(wǎng)

    運營商和企業(yè)的網(wǎng)絡智能化演進提供了統(tǒng)標尺。華為同步升級面向Net5.5G的IP承載網(wǎng),助力產(chǎn)業(yè)加速邁向智能時代。
    的頭像 發(fā)表于 03-05 11:14 ?405次閱讀

    華為發(fā)布新一代綠色AI站點和GW級AIDC解決方案

    在MWC26巴塞羅那期間舉辦的產(chǎn)品與解決方案發(fā)布會上,華為數(shù)字能源副總裁何波發(fā)布新一代AI綠色站點和GW級AIDC解決方案,在智能體互聯(lián)網(wǎng)時
    的頭像 發(fā)表于 03-05 10:54 ?324次閱讀

    華為在MWC 2026正式發(fā)布新一代智能電信解決方案TICC 2.0

    在MWC26巴塞羅那期間舉行的Agentic Core峰會上,華為正式發(fā)布了全新一代智能電信解決方案TICC 2.0(Telco Intelligent Converged Clou
    的頭像 發(fā)表于 03-05 10:47 ?236次閱讀

    新一代AtomGit平臺暨人工智能開源社區(qū)發(fā)布

    、數(shù)據(jù)集及異構算力資源,共同打造中立、開放、公益的新一代“開源+人工智能體化基礎設施平臺——AtomGit,并正式
    的頭像 發(fā)表于 10-30 09:46 ?640次閱讀

    華為發(fā)布以AI-Centric全面升級的AI WAN解決方案

    Net5.5G IP承載網(wǎng)的技術演進與產(chǎn)業(yè)智能化實踐。峰會上,華為正式發(fā)布以AI-Centric全面升級的AI WAN解決方案,通過重新定義
    的頭像 發(fā)表于 10-17 11:13 ?735次閱讀

    IDC副總裁暢談Net5.5G的創(chuàng)新場景

    IDC歐洲電信與基礎設施副總裁Chris Barnard認為,業(yè)界提出的Net5.5G產(chǎn)業(yè)代際,在當前的數(shù)智化時代,極大的促進了數(shù)據(jù)通信產(chǎn)業(yè)的技術創(chuàng)新和發(fā)展,在企業(yè)園區(qū)網(wǎng)絡、廣域網(wǎng)絡、數(shù)據(jù)中心網(wǎng)絡以及網(wǎng)絡安全得到了廣泛應用,全面
    的頭像 發(fā)表于 10-13 09:14 ?749次閱讀

    【內(nèi)測活動同步開啟】這么?。窟@么強?新一代大模型MCP開發(fā)板來啦!

    【內(nèi)測活動同步開啟】這么???這么強?新一代大模型MCP開發(fā)板來啦! 聆思全新一代六合芯片「LS26系列」,搭載WIFI / BLE & BT / NPU,與「小聆AI」強強聯(lián)合
    發(fā)表于 09-25 11:47

    騰訊發(fā)布新一代智能駕駛地圖9.0

    9月16-17日,2025騰訊全球數(shù)字生態(tài)大會在深圳舉行。會議期間,騰訊正式發(fā)布新一代智能駕駛地圖9.0。
    的頭像 發(fā)表于 09-18 10:23 ?1549次閱讀

    華為Net5.5G助力IP網(wǎng)絡邁入智能新時代

    2025年8月21日,第九屆未來網(wǎng)絡發(fā)展大會在南京成功舉辦。華為數(shù)據(jù)通信標準專利部部長朱科義發(fā)表了主題演講《智啟未來:Net5.5G引領IP網(wǎng)絡全面邁入智能新時代》,深入分析了AI時代IP網(wǎng)絡新挑戰(zhàn)
    的頭像 發(fā)表于 08-22 16:57 ?2223次閱讀

    摩爾線程“AI工廠”:以系統(tǒng)級創(chuàng)新定義新一代AI基礎設施

    演講中表示,為應對生成式AI爆發(fā)式增長下的大模型訓練效率瓶頸,摩爾線程將通過系統(tǒng)級工程創(chuàng)新,構建新一代AI訓練基礎設施,致力于為AGI時代打造生產(chǎn)先進模型的“超級工廠”。 ? “AI工廠”:鍛造先進模型的“超級工廠” 人工
    發(fā)表于 07-28 10:34 ?2811次閱讀
    摩爾線程“AI工廠”:以系統(tǒng)級創(chuàng)新定義<b class='flag-5'>新一代</b>AI<b class='flag-5'>基礎設施</b>

    Net5.5G的四大技術亮點

    互聯(lián)網(wǎng)迎來AI大爆發(fā),誕生了個新名詞:新質(zhì)互聯(lián)網(wǎng),也稱為Net5.5G。它不是普通的網(wǎng)絡升級,而是面向AI時代的全新網(wǎng)絡架構。簡單來說,它讓互聯(lián)網(wǎng)從連接“人”擴展到連接人 + 設備 + 算力 + 數(shù)據(jù) + 空間。
    的頭像 發(fā)表于 07-01 17:06 ?930次閱讀

    華為開發(fā)者大會2025(HDC 2025)亮點:華為發(fā)布盤古大模型5.5 宣布新一代昇騰AI服務上線

    HarmonyOS、昇騰AI服務、盤古大模型等最新科技創(chuàng)新成果。 在主題演講中,華為常務董事、華為計算CEO張平安宣布基于CloudMatrix384 超節(jié)點的新一代昇騰AI服務
    的頭像 發(fā)表于 06-20 20:19 ?4490次閱讀
    華為開發(fā)者大會2025(HDC 2025)亮點:華為<b class='flag-5'>云</b><b class='flag-5'>發(fā)布</b>盤古大模型<b class='flag-5'>5.5</b> 宣布<b class='flag-5'>新一代</b>昇騰AI<b class='flag-5'>云</b>服務上線

    廣和通發(fā)布新一代AI語音智能體FiboVista

    近日,2025火山引擎Force原動力大會正式開幕。廣和通發(fā)布新一代AI語音智能體FiboVista,并已率先應用于車聯(lián)網(wǎng),成為智能駕駛的“用車伙伴”和“出行伴侶”。通過創(chuàng)新AI大模型
    的頭像 發(fā)表于 06-17 09:22 ?1270次閱讀

    PoE交換機如何助力智慧城市基礎設施建設?

    隨著全球城市化的加速發(fā)展,智慧城市的概念正逐步成為現(xiàn)實。通過技術手段提升居民生活質(zhì)量、優(yōu)化城市運營并促進可持續(xù)發(fā)展已成為趨勢。彈性且高效的網(wǎng)絡是智慧城市基礎設施的關鍵支撐,而以太網(wǎng)供電(PoE
    發(fā)表于 03-25 10:20