百度又有“大動作”?9月18日,百度正式公布在圖神經(jīng)網(wǎng)絡領域取得新突破,提出融合標簽傳遞和圖神經(jīng)網(wǎng)絡的統(tǒng)一模型 UniMP(Unified Message Passing),在圖神經(jīng)網(wǎng)絡權威榜單 OGB(Open Graph Benchmark)取得多項榜首,引發(fā)業(yè)界關注。
Leaderboard for ogbn-products
Leaderboard for ogbn-proteins
Leaderboard for ogbn-arxiv
圖神經(jīng)網(wǎng)絡最權威榜單 OGB
圖神經(jīng)網(wǎng)絡是用于圖結構數(shù)據(jù)的深度學習架構,將端到端學習與歸納推理相結合,有望解決傳統(tǒng)深度學習無法處理的因果推理、可解釋性等問題,是非常有潛力的人工智能研究方向。但是,這個領域一直缺乏規(guī)模比較大且認可度較高的數(shù)據(jù)集。目前大量的論文仍然在 Cora、PubMed、Citeseer 等小數(shù)據(jù)集上進行實驗,實驗的效果也沒有普適性。在此情況下,OGB(Open Graph Benchmark)應運而生:
權威性高:OGB 是由斯坦福大學圖神經(jīng)網(wǎng)絡權威 Jure Leskovec 教授團隊建立的大規(guī)模圖學習任務的評測基準數(shù)據(jù)集,指導委員會包含 Yoshua Bengio、Will Hamilton、Max Welling 等業(yè)界大牛。Jure Leskovec 教授在 NeurlPS 2019大會的演講中正式對外發(fā)布 OGB 并開源,是目前公認最權威的圖學習相關基準測試數(shù)據(jù)集。
數(shù)據(jù)豐富:OGB 面向不同的圖學習任務(包括節(jié)點分類,邊預測,圖分類)分別提供了多個數(shù)據(jù)集,如學術引用網(wǎng)絡、知識圖譜、分子圖、生物網(wǎng)絡等。其中最熱門的三個半監(jiān)督節(jié)點分類數(shù)據(jù)集:商品推薦 ogbn-products、論文引用 ogbn-arxiv 和化學分子 ogbn-proteins,對圖神經(jīng)網(wǎng)絡研究者有極強的吸引力。
奪榜激烈:OGB 吸引了包括斯坦福、紐約大學、加州大學洛杉磯分校、康奈爾大學、亞馬遜等多個機構參與打榜;榜單上也誕生了層出不窮的新穎圖神經(jīng)網(wǎng)絡結構,如堆積112層的深度圖卷積網(wǎng)絡 DeeperGCN,發(fā)表在 ICML 2020的多層圖網(wǎng)絡 GCNII,還有多種形式不同的圖采樣算法。
近日,百度 PGL 團隊創(chuàng)新提出統(tǒng)一消息傳遞圖神經(jīng)網(wǎng)絡模型 UniMP,在三大半監(jiān)督節(jié)點分類數(shù)據(jù)集均榮登榜首。榜單上放出的開源代碼與論文地址如下:
UniMP開源代碼地址
https://github.com/PaddlePadd...
UniMP論文地址
https://arxiv.org/pdf/2009.03...
UniMP:統(tǒng)一消息傳遞模型
在半監(jiān)督圖節(jié)點分類場景下,節(jié)點之間通過邊相連接,部分節(jié)點被打上標簽。任務要求模型通過監(jiān)督學習的方式,擬合被標注節(jié)點數(shù)據(jù),并對未標注的節(jié)點進行預測。如下圖所示,在一般機器學習的問題上,已標注的訓練數(shù)據(jù)在新數(shù)據(jù)的推斷上,并不能發(fā)揮直接的作用,因為數(shù)據(jù)的輸入是獨立的。然而在圖神經(jīng)網(wǎng)絡的場景下,已有的標注數(shù)據(jù)可以從節(jié)點與節(jié)點的連接中,根據(jù)圖結構關系推廣到新的未標注數(shù)據(jù)中。
一般應用于半監(jiān)督節(jié)點分類的算法分為圖神經(jīng)網(wǎng)絡和標簽傳遞算法兩類,它們都是通過消息傳遞的方式(前者傳遞特征、后者傳遞標簽)進行節(jié)點標簽的學習和預測。其中經(jīng)典標簽傳遞算法如 LPA,只考慮了將標簽在圖上進行傳遞,而圖神經(jīng)網(wǎng)絡算法大多也只是使用了節(jié)點特征以及圖的鏈接信息進行分類。但是單純考慮標簽傳遞或者節(jié)點特征都是不足夠的。
百度 PGL 團隊提出的統(tǒng)一消息傳遞模型 UniMP,將上述兩種消息統(tǒng)一到框架中,同時實現(xiàn)了節(jié)點的特征與標簽傳遞,顯著提升了模型的泛化效果。UniMP 以 Graph Transformer 模型作為基礎骨架,聯(lián)合使用標簽嵌入方法,將節(jié)點特征和部分節(jié)點標簽同時輸入至模型中,從而實現(xiàn)了節(jié)點特征和標簽的同時傳遞。
簡單的加入標簽信息會帶來標簽泄漏的問題,即標簽信息即是特征又是訓練目標。實際上,標簽大部分是有順序的,例如在引用網(wǎng)絡中,論文是按照時間先后順序出現(xiàn)的,其標簽也應該有一定的先后順序。在無法得知訓練集標簽順序的情況下,UniMP 提出了標簽掩碼學習方法。UniMP 每一次隨機將一定量的節(jié)點標簽掩碼為未知,用部分已有的標注信息、圖結構信息以及節(jié)點特征來還原訓練數(shù)據(jù)的標簽。最終,UniMP 在 OGB 上取得 SOTA 效果,并在論文的消融實驗上,驗證了方法的有效性。
屠榜背后:飛槳圖學習框架 PGL 加持
UniMP 基于飛槳圖學習框架 PGL(Paddle Graph Learning)實現(xiàn),依托飛槳核心框架以及自研的圖引擎。PGL 支持十億節(jié)點百億邊的超巨圖訓練,原生支持異構圖 Metapath 采樣以及 Message Passing 雙模式,預置多種業(yè)界主流圖學習算法以及自研模型如 ERNIESage、UniMP 等,方便開發(fā)者熟悉和使用圖神經(jīng)網(wǎng)絡領域模型。
飛槳 PGL 已經(jīng)在搜索、廣告、信息流、金融風控、貼吧、用戶畫像、智能地圖等場景全面落地,可支持百億巨圖場景。圖學習作為通用人工智能算法之一,勢必成為這個時代新的基礎設施,賦能各行各業(yè),助燃智能經(jīng)濟騰飛。
PGL 獲得喜人成績,背后離不開強有力的后盾——飛槳。飛槳是我國首個開源開放、功能完備的產(chǎn)業(yè)級深度學習平臺,向下對接芯片,能夠和芯片進行軟硬一體的優(yōu)化,向上支撐各種應用,助力技術創(chuàng)新和業(yè)務發(fā)展,可以說是“智能時代的操作系統(tǒng)”。近期,飛槳動態(tài)圖和 API 體系全面升級,讓開發(fā)者可以更便捷地開發(fā)、更高效地部署模型。
百度希望有志之士加入 PGL,一起共建未來。PGL 代碼完全開源開放,歡迎歡迎開發(fā)者們使用并貢獻您的奇思妙想。如果您覺得還不錯,歡迎“Star”;如果您有意見需要交流,歡迎“Issue”,PGL 開源代碼和入門教程鏈接:
PGL 開源代碼
https://github.com/PaddlePadd...
圖學習入門教程
https://aistudio.baidu.com/ai...
審核編輯:符乾江
-
百度
+關注
關注
9文章
2378瀏覽量
94988 -
人工智能
+關注
關注
1818文章
50130瀏覽量
265721
發(fā)布評論請先 登錄
百度正式發(fā)布并開源新一代文檔解析模型PaddleOCR-VL-1.5
神經(jīng)網(wǎng)絡的初步認識
CNN卷積神經(jīng)網(wǎng)絡設計原理及在MCU200T上仿真測試
NMSIS神經(jīng)網(wǎng)絡庫使用介紹
在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型的一些經(jīng)驗
液態(tài)神經(jīng)網(wǎng)絡(LNN):時間連續(xù)性與動態(tài)適應性的神經(jīng)網(wǎng)絡
神經(jīng)網(wǎng)絡的并行計算與加速技術
商湯日日新V6.5多模態(tài)大模型登頂全球權威榜單
百度地圖重磅發(fā)布地圖AI開放平臺
云知聲再度登頂MedBench榜單
上汽大眾與百度地圖達成戰(zhàn)略合作
百度地圖與雅迪推出組合屏智能導航解決方案
百度飛槳框架3.0正式版發(fā)布
百度飛槳登頂圖神經(jīng)網(wǎng)絡權威榜單3項榜首,重磅推出UniMP
評論