摘要
在自然語言處理和知識(shí)圖譜領(lǐng)域的信息提取中,三元組抽取是必不可少的任務(wù)。在本文中,我們將重新審視用于序列生成的端到端三元組抽取任務(wù)。由于生成三元組抽取可能難以捕獲長(zhǎng)期依賴關(guān)系并生成不忠實(shí)的三元組,因此我們引入了一種新的模型,即使用生成式Transformer的對(duì)比學(xué)習(xí)三元組抽取框架。
具體來說,我們介紹了一個(gè)共享的Transformer模塊,用于基于編碼器-解碼器的生成。為了產(chǎn)生忠實(shí)的結(jié)果,我們提出了一種新穎的三元組對(duì)比學(xué)習(xí)訓(xùn)練框架。此外,我們引入了兩種機(jī)制來進(jìn)一步改善模型的性能(即,分批動(dòng)態(tài)注意掩碼和三元組校準(zhǔn))。在三個(gè)數(shù)據(jù)集(NYT,WebNLG和MIE)上的實(shí)驗(yàn)結(jié)果表明,我們的方法比基線具有更好的性能。我們的代碼和數(shù)據(jù)集將在論文出版后發(fā)布。
論文動(dòng)機(jī)
編碼器-解碼器模型是功能強(qiáng)大的工具,已在許多NLP任務(wù)中獲得成功,但是現(xiàn)有方法仍然存在兩個(gè)關(guān)鍵問題。首先,由于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的固有缺陷,它們無法捕獲長(zhǎng)期依賴關(guān)系,從而導(dǎo)致重要信息的丟失,否則將在句子中反映出來,從而導(dǎo)致模型無法應(yīng)用更長(zhǎng)的文本。第二,缺乏工作致力于生成忠實(shí)的三元組,序列到序列的體系結(jié)構(gòu)會(huì)產(chǎn)生不忠實(shí)的序列,從而產(chǎn)生意義上的矛盾。例如,給定句子“美國(guó)總統(tǒng)特朗普在紐約市皇后區(qū)長(zhǎng)大,并居住在那里直到13歲”,該模型可以生成事實(shí)“(特朗普出生于皇后區(qū))”。盡管從邏輯上講是正確的,但我們無法從給定的句子中找到直接的證據(jù)來支持它。
為了解決這些問題,我們引入了帶有生成變壓器(CGT)的對(duì)比學(xué)習(xí)三元組提取框架,該框架是一個(gè)共享的Transformer模塊,支持編碼器-解碼器的生成式三元組對(duì)比學(xué)習(xí)多任務(wù)學(xué)習(xí)。首先,我們使用分隔符和部分因果掩碼機(jī)制將輸入序列與目標(biāo)序列連接起來,以區(qū)分編碼器-解碼器表示形式。除了預(yù)先訓(xùn)練的模型之外,我們的模型不需要任何其他參數(shù)。然后,我們介紹了一種新穎的三元組對(duì)比學(xué)習(xí)對(duì)象,該對(duì)象利用真實(shí)的三元組作為正實(shí)例,并利用隨機(jī)令牌采樣將損壞的三元組構(gòu)造為負(fù)實(shí)例。為了共同優(yōu)化三元組生成對(duì)象和對(duì)比學(xué)習(xí)對(duì)象,我們引入了分批動(dòng)態(tài)注意掩碼機(jī)制,該機(jī)制允許我們動(dòng)態(tài)選擇不同的對(duì)象并共同優(yōu)化任務(wù)。最后,我們介紹了一種新穎的三元組校準(zhǔn)算法,以在推理階段濾除虛假三元組。
這項(xiàng)工作的貢獻(xiàn)如下:
我們將三元組提取作為序列生成任務(wù)進(jìn)行了重新介紹,并引入了一種新穎的CGT模型。考慮到增加的提取功能,CGT除了在預(yù)訓(xùn)練語言模型中發(fā)現(xiàn)的參數(shù)外,不需要其他參數(shù)。
我們引入了兩種機(jī)制來進(jìn)一步提高模型性能(即,批處理動(dòng)態(tài)注意掩碼和三元組校準(zhǔn))。第一個(gè)可以聯(lián)合優(yōu)化不同的對(duì)象,第二個(gè)可以確保忠實(shí)的推理。
我們?cè)谌齻€(gè)基準(zhǔn)數(shù)據(jù)集上評(píng)估了CGT。 我們的模型優(yōu)于其他強(qiáng)大的基準(zhǔn)模型。我們還證明,在捕獲長(zhǎng)期依存關(guān)系方面,CGT比現(xiàn)有的三元組抽取方法更好,因此,在使用長(zhǎng)句子場(chǎng)景下依然可以獲得更好的性能。
模型框架

這里我們展示了CGT生成式Transformer的總體架構(gòu)。右上部分表示Transformer生成模塊,右下部分表示三元組對(duì)比學(xué)習(xí)模塊。這兩個(gè)部分訓(xùn)練時(shí)共同優(yōu)化。生成模塊依靠部分因果掩碼機(jī)制建模成序列生成任務(wù),如右圖中的示例所示,對(duì)于三元組序列生成,其中右上部分設(shè)置為-∞以阻止從源段到目標(biāo)段的關(guān)注;左側(cè)部分設(shè)置為全0,表示令牌能夠參與第一段。利用交叉熵?fù)p失生成來優(yōu)化三元組生成過程,獲得生成損失。對(duì)比學(xué)習(xí)模塊將輸入文本與正確的三元組實(shí)例或者偽造的三元組進(jìn)行隨機(jī)拼接,依靠部分因果掩碼機(jī)制建模成文本分類任務(wù),其中mask矩陣的元素全為0,利用經(jīng)過MLP多層感知機(jī)層的特殊token[CLS]表示來計(jì)算分類打分函數(shù),鑒別是否為正確實(shí)例,從而增強(qiáng)模型對(duì)關(guān)鍵token的感知能力。我們利用交叉熵優(yōu)化對(duì)比損失。生成損失與對(duì)比學(xué)習(xí)損失通過一個(gè)超參數(shù)權(quán)衡構(gòu)成了我們最終的總體損失。我們的解碼推理采用的是波束搜索和啟發(fā)式約束。
實(shí)驗(yàn)結(jié)果
我們對(duì)三個(gè)基準(zhǔn)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn):紐約時(shí)報(bào)(NYT),WebNLG和MIE。MIE是醫(yī)學(xué)領(lǐng)域的大規(guī)模中文對(duì)話信息提取數(shù)據(jù)集。圖2中中顯示了這三個(gè)數(shù)據(jù)集的部分實(shí)驗(yàn)統(tǒng)計(jì)信息。


責(zé)任編輯:lq6
-
編碼器
+關(guān)注
關(guān)注
45文章
3953瀏覽量
142650 -
自然語言處理
+關(guān)注
關(guān)注
1文章
630瀏覽量
14667
原文標(biāo)題:AAAI2021-基于對(duì)比學(xué)習(xí)的三元組生成式抽取方法
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
一種無OS的MCU實(shí)用軟件框架
四探針電阻測(cè)試 | CuNiC 三元合金的導(dǎo)電性能研究
借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率
量子機(jī)器學(xué)習(xí)入門:三種數(shù)據(jù)編碼方法對(duì)比與應(yīng)用
汽車800V高壓儲(chǔ)能電池管理系統(tǒng)設(shè)計(jì)框架
一種適用于動(dòng)態(tài)環(huán)境的自適應(yīng)先驗(yàn)場(chǎng)景-對(duì)象SLAM框架
鋰離子電池正極材料之一:三元高鎳化的研究現(xiàn)狀
一種基于擴(kuò)散模型的視頻生成框架RoboTransfer
HarmonyOS NEXT意圖框架習(xí)慣推薦一場(chǎng)景說明
寬調(diào)速范圍低轉(zhuǎn)矩脈動(dòng)的一種新型內(nèi)置式永磁同步電機(jī)的設(shè)計(jì)與分析
介紹三種常見的MySQL高可用方案
OCAD應(yīng)用:四組元連續(xù)變焦系統(tǒng)
一種實(shí)時(shí)多線程VSLAM框架vS-Graphs介紹
百度飛槳框架3.0正式版發(fā)布
一種多模態(tài)駕駛場(chǎng)景生成框架UMGen介紹
介紹一種新穎的三元組對(duì)比學(xué)習(xí)訓(xùn)練框架
評(píng)論