91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種單獨適配于NER的數(shù)據(jù)增強方法

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者: JayLou婁杰 ? 2021-01-18 16:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文首先介紹傳統(tǒng)的數(shù)據(jù)增強在NER任務(wù)中的表現(xiàn),然后介紹一種單獨適配于NER的數(shù)據(jù)增強方法,這種方法生成的數(shù)據(jù)更具豐富性、數(shù)據(jù)質(zhì)量更高。

0

前言

在NLP中有哪些數(shù)據(jù)增強技術(shù)?這一定是當(dāng)今NLP面試中的必考題了吧。在《標(biāo)注樣本少怎么辦?》(鏈接:https://zhuanlan.zhihu.com/p/146777068)一文中也詳細(xì)總結(jié)過這個問題。 但是,目前來看:大多數(shù)「數(shù)據(jù)增強」方法通常被用于文本分類、文本匹配等任務(wù)中,這類任務(wù)有一個共性:是“句子級別”(sentence level)的分類任務(wù),大多數(shù)關(guān)于「文本增強」的研究也都針對這個任務(wù)。 在2020年5月的時候,JayJay突然在想:NER如何進行數(shù)據(jù)增強?有什么奇思妙想可以用上?于是我陷入沉思中......

NER做數(shù)據(jù)增強,和別的任務(wù)有啥不一樣呢?很明顯,NER是一個token-level的分類任務(wù),在進行全局結(jié)構(gòu)化預(yù)測時,一些增強方式產(chǎn)生的數(shù)據(jù)噪音可能會讓NER模型變得敏感脆弱,導(dǎo)致指標(biāo)下降、最終奔潰。 在實踐中,我們也可以把常用的數(shù)據(jù)增強方法遷移到NER中,比如,我們通常采用的「同類型實體」隨機替換等。但這類方法通常需要獲得額外資源(實體詞典、平行語料等),如果沒有知識庫信息,NER又該如何做數(shù)據(jù)增強呢?有沒有一種單獨為NER適配的數(shù)據(jù)增強方法呢? 本文JayJay主要介紹在最近頂會中、對NER進行數(shù)據(jù)增強的2篇paper:

COLING20:《An Analysis of Simple Data Augmentation for Named Entity Recognition》

EMNLP20:《DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks》

COLING20主要是將傳統(tǒng)的數(shù)據(jù)增強方法應(yīng)用于NER中、并進行全面分析與對比。 EMNLP20主要是提出了一種適配于NER的數(shù)據(jù)增強方法——語言模型生成方法:1)這種方式不依賴于外部資源,比如實體詞典、平行語料等;2)可同時應(yīng)用于有監(jiān)督、半監(jiān)督場景。 具體效果如何,我們來一探究竟吧~本文的組織結(jié)構(gòu)為:

bce652b2-58b2-11eb-8b86-12bb97331649.png

1

傳統(tǒng)的數(shù)據(jù)增強方法遷移到NER,效果如何?

bd986998-58b2-11eb-8b86-12bb97331649.png

在COLING20的paper中,作者借鑒sentence-level的傳統(tǒng)數(shù)據(jù)增強方法,將其應(yīng)用于NER中,共有4種方式(如上圖所示):

Label-wise token replacement (LwTR):即同標(biāo)簽token替換,對于每一token通過二項分布來選擇是否被替換;如果被替換,則從訓(xùn)練集中選擇相同的token進行替換。

Synonym replacement (SR):即同義詞替換,利用WordNet查詢同義詞,然后根據(jù)二項分布隨機替換。如果替換的同義詞大于1個token,那就依次延展BIO標(biāo)簽。

Mention replacement (MR):即實體提及替換,與同義詞方法類似,利用訓(xùn)練集中的相同實體類型進行替換,如果替換的mention大于1個token,那就依次延展BIO標(biāo)簽,如上圖:「headache」替換為「neuropathic pain syndrome」,依次延展BIO標(biāo)簽。

Shuffle within segments (SiS):按照mention來切分句子,然后再對每個切分后的片段進行shuffle。如上圖,共分為5個片段: [She did not complain of], [headache], [or], [any other neurological symptoms], [.]. 。也是通過二項分布判斷是否被shuffle(mention片段不會被shuffle),如果shuffle,則打亂片段中的token順序。

論文也設(shè)置了不同的資源條件:

Small(S):包含50個訓(xùn)練樣本;

Medium (M):包含150個訓(xùn)練樣本;

Large (L):包含500個訓(xùn)練樣本;

Full (F):包含全量訓(xùn)練集;

be1fd5fe-58b2-11eb-8b86-12bb97331649.png

由上圖可以看出:

各種數(shù)據(jù)增強方法都超過不使用任何增強時的baseline效果。

對于RNN網(wǎng)絡(luò),實體提及替換優(yōu)于其他方法;對于Transformer網(wǎng)絡(luò),同義詞替換最優(yōu)。

總體上看,所有增強方法一起使用(ALL)會由于單獨的增強方法。

低資源條件下,數(shù)據(jù)增強效果增益更加明顯;

充分?jǐn)?shù)據(jù)條件下,數(shù)據(jù)增強可能會帶來噪聲,甚至導(dǎo)致指標(biāo)下降;

2

DAGA:單獨適配于NER的數(shù)據(jù)增強方法

EMNLP這篇NER數(shù)據(jù)增強論文DAGA來自阿里達(dá)摩院,其主要是通過語言模型生成來進行增強,其整體思路也非常簡單清晰。

be993f7a-58b2-11eb-8b86-12bb97331649.png

DAGA的核心思路也十分清晰,就是標(biāo)簽線性化:即將原始的「序列標(biāo)注標(biāo)簽」與「句子token」進行混合,也就是變成「Tag-Word」的形式,如上圖所示:將「B-PER」放置在「Jose」之前,將「E-PER」放置在「Valentin」之前;對于標(biāo)簽「O」則不與句子混合。標(biāo)簽線性化后就可以生成一個句子了,基于這個句子就可以進行「語言模型生成」訓(xùn)練啦~是不是超級簡單?!

bf17e67c-58b2-11eb-8b86-12bb97331649.png

DAGA 網(wǎng)絡(luò)(如上圖)僅僅通過一層LSTM進行自回歸的語言模型訓(xùn)練,網(wǎng)絡(luò)很輕,沒有基于BERT做。 DAGA的一大優(yōu)點就是不需要額外資源,比如同義詞替換就需要一個WordNet。但是論文也考慮到了使用外部資源時的情況,比如:1)有大量無標(biāo)注語料時;2)有外部知識庫時;

bfe5bd54-58b2-11eb-8b86-12bb97331649.png

對于不同的3種資源條件下,具體的訓(xùn)練語料構(gòu)建如上圖所示:

對于標(biāo)注語料,用[labeled]在句首作為條件標(biāo)記;

對于無標(biāo)注語料,用[unlabeled]在句首作為條件標(biāo)記;

對于知識庫,對無標(biāo)注語料進行詞典匹配后(正向最大匹配),用[KB]在句首作為條件標(biāo)記;

只要輸入[BOS]+[labeled]/[unlabeled]/[KB],即可通過上述語言模型、自回歸生成新的增強數(shù)據(jù)啦~ 下面我們分別對上述3種資源條件下的生成方法進行驗證:2.1 只使用標(biāo)注語料進行語言生成共采用4種實驗設(shè)置:

gold:通過標(biāo)注語料進行NER訓(xùn)練

gen:即DAGA,1)通過標(biāo)注語料進行語言模型訓(xùn)練、生成新的數(shù)據(jù):2) 過采樣標(biāo)注語料; 3)新數(shù)據(jù)+過采樣標(biāo)注語料,最后一同訓(xùn)練NER;

rd:1)通過隨機刪除進行數(shù)據(jù)增強; 2)過采樣標(biāo)注語料;3)新數(shù)據(jù)+過采樣標(biāo)注語料,最后一同訓(xùn)練NER;

rd*:同rd,只是不過采樣標(biāo)注語料。

c05f590c-58b2-11eb-8b86-12bb97331649.png

具體結(jié)果由上圖展示(設(shè)置了6種不同語言數(shù)據(jù)、不同的原始標(biāo)注數(shù)據(jù)量進行對比),可以看出:DAGA方式(gen)明顯超過其他數(shù)據(jù)增強方法,特別是在低資源條件下(1k和2k數(shù)據(jù)量)。2.2 使用無標(biāo)注語料進行語言生成共采用3種實驗設(shè)置:

gold:通過標(biāo)注語料進行NER訓(xùn)練;

wt:即弱監(jiān)督方法,采用標(biāo)注語料訓(xùn)練好一個NER模型,然后通過NER模型對無標(biāo)注語料偽標(biāo)生成新數(shù)據(jù),然后再重新訓(xùn)練一個NER模型;

gen-ud:通過標(biāo)注和無標(biāo)注語料共同進行語言模型訓(xùn)練、生成新數(shù)據(jù),然后再訓(xùn)練NER模型;

c0f47884-58b2-11eb-8b86-12bb97331649.png

由上圖的紅框進行對比,可以看出:DAGA方法在所有設(shè)置下、均超過了弱監(jiān)督數(shù)據(jù)方法。其實弱監(jiān)督方法生成的數(shù)據(jù)質(zhì)量較低、噪聲較大,而DAGA可以有效改善這一情況。 可以預(yù)見的是:當(dāng)有大量無標(biāo)注語料時,DAGA進行的NER數(shù)據(jù)增強,將有效提升NER指標(biāo)。2.3 使用無標(biāo)注語料+知識庫進行語言生成同樣也是采用3種實驗設(shè)置:

gold:通過標(biāo)注語料進行NER訓(xùn)練;

kb:從全量訓(xùn)練集中積累實體詞典(實體要在訓(xùn)練集上中至少出現(xiàn)2次),然后用實體詞典匹配標(biāo)注無標(biāo)注語料、生成新數(shù)據(jù),最后再訓(xùn)練NER模型;

gen-kb:與kb類似,將kb生成的新數(shù)據(jù)訓(xùn)練語言模型,語言模型生成數(shù)據(jù)后、再訓(xùn)練NER模型;

c173a168-58b2-11eb-8b86-12bb97331649.png

如上圖紅框所示,總體上DAGA超過了kb方式,低資源條件(1k)下,kb方式還是強于DAGA。

3

DAGA為何如此有效?

c1c9bd64-58b2-11eb-8b86-12bb97331649.png

DAGA更具多樣性:

如上圖所示,在原始的訓(xùn)練集中「Sandrine」只會和「Testud」構(gòu)成一個實體span,而DAGA生成的數(shù)據(jù)中,「Sandrine」會和更豐富的token構(gòu)成一個實體。

此外,DAGA會生成更豐富的實體上下文,論文以相同實體mention的1-gram作為評估指標(biāo)進行了統(tǒng)計。如下圖所示,桔色代表DAGA生成的實體上下文,比原始的訓(xùn)練集會有更豐富的上下文。

c2120e2a-58b2-11eb-8b86-12bb97331649.png

DAGA可以有效利用無標(biāo)注語料:DAGA通過無標(biāo)注語料來生成有用的數(shù)據(jù),新數(shù)據(jù)中會出現(xiàn)那些未在標(biāo)注語料中出現(xiàn)的新實體。

4

總結(jié)

本文就「NER如何進行數(shù)據(jù)增強」進行了介紹:

雖然傳統(tǒng)的數(shù)據(jù)增強方法也可用于NER中,不過,JayJay認(rèn)為:傳統(tǒng)的數(shù)據(jù)增強方法應(yīng)用到NER任務(wù)時,需要外部資源,且數(shù)據(jù)增強的豐富性不足、噪音可能較大。

基于語言生成的DAGA方法是NER數(shù)據(jù)增強的一種新興方式,再不利用外部資源時會有較好的豐富性、數(shù)據(jù)質(zhì)量較好。

責(zé)任編輯:xj

原文標(biāo)題:打開你的腦洞:NER如何進行數(shù)據(jù)增強 ?

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7335

    瀏覽量

    94776
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    630

    瀏覽量

    14667
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23280

原文標(biāo)題:打開你的腦洞:NER如何進行數(shù)據(jù)增強 ?

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    指令集測試的一種糾錯方法

    本文描述在進行指令集測試的一種糾錯方法 1.打開測試指令集對應(yīng)的dump文件 dump文件是指由匯編文件進行反匯編之后,可以供人閱讀指令的反匯編文件。其包含了每條指令的具體操作的信息。指令集測試
    發(fā)表于 10-24 14:04

    漢思新材料取得一種無析出物單組份環(huán)氧膠粘劑及其制備方法的專利

    專利的核心在于通過一種特殊的物理交聯(lián)網(wǎng)絡(luò)來解決環(huán)氧膠粘劑在熱固化過程中常見的樹脂析出問題。改性環(huán)氧樹脂(占比40-60%):通過增強聚合物鏈結(jié)構(gòu)的剛性,有效抑制了分
    的頭像 發(fā)表于 10-17 11:31 ?1327次閱讀
    漢思新材料取得<b class='flag-5'>一種</b>無析出物單組份環(huán)氧膠粘劑及其制備<b class='flag-5'>方法</b>的專利

    當(dāng)不同的數(shù)據(jù)放在同個Flash頁面上時,請問如何在不影響其他數(shù)據(jù)的情況下更改單獨數(shù)據(jù)

    當(dāng)不同的數(shù)據(jù)放在同個Flash頁面上時,如何在不影響其他數(shù)據(jù)的情況下更改單獨數(shù)據(jù)?
    發(fā)表于 08-22 06:25

    一種抗輻射加固檢錯糾錯電路的設(shè)計

    電子發(fā)燒友網(wǎng)站提供《一種抗輻射加固檢錯糾錯電路的設(shè)計.pdf》資料免費下載
    發(fā)表于 08-11 15:38 ?0次下載

    一種新的無刷直流電機反電動勢檢測方法

    無位置傳感器無刷直流電機的控制算法是近年來研究的熱點之,有霍爾位置信號直流電機根據(jù)霍爾狀態(tài)來確定通斷功率器件。利用無刷直流電機的數(shù)學(xué)模型,根據(jù)反電動勢檢測原理,提出了一種新的線反電動勢檢測方法
    發(fā)表于 08-07 14:29

    一種永磁同步電機轉(zhuǎn)子位置傳感器零位偏差高精度測量方法

    電勢模型的基礎(chǔ)上,結(jié)合旋轉(zhuǎn)變壓器解碼數(shù)據(jù),提出了一種通過拖動電機被動轉(zhuǎn)動,測量電機繞組反電勢及旋變解碼數(shù)據(jù)高位信號的零位偏差直接測量方法。實驗表明該
    發(fā)表于 08-04 15:01

    一種新的無刷直流電機反電動勢檢測方法

    無位置傳感器無刷直流電機的控制算法是近年來研究的熱點之,有霍爾位置信號直流電機根據(jù)霍爾狀態(tài)來確定通斷功率器件。利用無刷直流電機的數(shù)學(xué)模型,根據(jù)反電動勢檢測原理,提出了一種新的線反電動勢檢測方法
    發(fā)表于 08-04 14:59

    一種無序超均勻固體器件的網(wǎng)格優(yōu)化方法

    近日,天津大學(xué)精密儀器與光電子工程學(xué)院的光子芯片實驗室研發(fā)了一種無序超均勻固體器件的網(wǎng)格優(yōu)化方法,成果獲中國發(fā)明專利(ZL202410659505.2)授權(quán)。
    的頭像 發(fā)表于 07-28 16:10 ?959次閱讀
    <b class='flag-5'>一種</b>無序超均勻固體器件的網(wǎng)格優(yōu)化<b class='flag-5'>方法</b>

    瑞薩MCU方案:瑞薩RZ/G2L Bootloader單獨編譯方法詳解

    會提出需要單獨編譯Bootloader的需求。為了滿足用戶需求,本文將介紹一種RZ/G2L上脫離Yocto的單獨編譯Bootloader的方法,從而能夠快
    的頭像 發(fā)表于 07-08 14:47 ?2637次閱讀
    瑞薩MCU方案:瑞薩RZ/G2L Bootloader<b class='flag-5'>單獨</b>編譯<b class='flag-5'>方法</b>詳解

    漢思新材料取得一種PCB板封裝膠及其制備方法的專利

    漢思新材料取得一種PCB板封裝膠及其制備方法的專利漢思新材料(深圳市漢思新材料科技有限公司)2023年取得了項關(guān)于PCB板封裝膠及其制備方法
    的頭像 發(fā)表于 06-27 14:30 ?746次閱讀
    漢思新材料取得<b class='flag-5'>一種</b>PCB板封裝膠及其制備<b class='flag-5'>方法</b>的專利

    一種新型寬帶鞭狀套筒天線

    電子發(fā)燒友網(wǎng)站提供《一種新型寬帶鞭狀套筒天線.pdf》資料免費下載
    發(fā)表于 05-28 14:05 ?0次下載

    一種分段氣隙的CLLC變換器平面變壓器設(shè)計

    氣隙設(shè)計的優(yōu)點。 目錄1 概述2 一種分段氣隙的CLLC平面變壓器設(shè)計3 實驗驗證4 參考文獻(xiàn) 1 概述學(xué)者們從LLC拓?fù)湓?、新型器件、改進拓?fù)洹⑾冗M調(diào)制方法、諧振參數(shù)優(yōu)化方法、磁性器件設(shè)計
    發(fā)表于 03-27 13:57

    一種永磁電機用轉(zhuǎn)子組件制作方法

    一種永磁電機所使用的轉(zhuǎn)子組件,是由磁鋼與芯軸組裝而成,產(chǎn)品工作轉(zhuǎn)速80 000 r /mi n,磁鋼相對于芯軸的同軸度要小于O.015 mm?,F(xiàn)有的裝配方法是:先在芯軸兩端面制作中心孔,然后直接
    發(fā)表于 03-25 15:20

    一種無刷直流電機霍耳信號與定子繞組關(guān)系自學(xué)習(xí)方法

    的關(guān)系。提出了一種無刷直流電機霍耳信號與定子繞組關(guān)系自學(xué)習(xí)方法,該方法通過不同的繞組通電組合將電機轉(zhuǎn)子依次轉(zhuǎn)到6個不同的位置并記錄對應(yīng)的霍耳信號,然后得出霍耳信號與定子繞組的對應(yīng)關(guān)系。所提出的
    發(fā)表于 03-25 15:15

    MITEQ適配器-N型

    ):N型連接器是一種中等尺寸的螺紋式連接器,廣泛應(yīng)用于射頻和微波領(lǐng)域。它具有出色的電氣性能和機械強度,能夠承受較大的機械應(yīng)力和振動。 SMA(M/F):SMA連接器是一種小型螺紋式連接器,常用于微波設(shè)備
    發(fā)表于 03-12 09:44