91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用于中文縮略詞預(yù)測(cè)的序列生成模型研究

深度學(xué)習(xí)自然語言處理 ? 來源:知識(shí)工場(chǎng) ? 作者:曹愷燕 ? 2022-11-14 14:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

研究背景

縮略詞是單詞或短語的縮寫形式。為了方便寫作和表達(dá),在文本中提及某個(gè)實(shí)體時(shí),人們傾向于使用縮寫名稱而不是它的完整形式(名稱)。理解縮略詞,尤其是實(shí)體的縮寫名稱,是知識(shí)圖譜構(gòu)建和應(yīng)用的關(guān)鍵步驟??s略詞處理主要包括三個(gè)任務(wù):縮略詞擴(kuò)展,縮略詞識(shí)別和提取,以及縮略詞預(yù)測(cè)。毫無疑問,縮略詞處理在各種自然語言處理 (NLP) 任務(wù)中發(fā)揮著重要作用例如信息檢索、實(shí)體鏈接等任務(wù)。

在本文中,我們重點(diǎn)關(guān)注縮略詞處理的第三個(gè)任務(wù),即縮略詞預(yù)測(cè),其目標(biāo)是預(yù)測(cè)實(shí)體完整形式的可能縮寫形式??s略詞實(shí)際上是一個(gè)子序列,由一個(gè)詞或一些字符按完整形式的順序排列。不同于英文縮略詞(通常是首字母縮略詞),中文縮略詞形式更加復(fù)雜多樣。

如表 1 所示,縮略詞可以是位于實(shí)體完整形式中的第一個(gè)詞(“復(fù)旦”)也可以是最后一個(gè)詞(“迪士尼”),并且可能包含實(shí)體中一些不連續(xù)但有序的字符(“北大”)。而且,一個(gè)實(shí)體的縮略詞可以有多種形式(“央視”或“中央臺(tái)”)。因此,作為一項(xiàng)更具挑戰(zhàn)性的任務(wù),中文縮略詞預(yù)測(cè)已成為近年來的研究熱點(diǎn)。

▲ 表1. 中文縮略詞的幾個(gè)實(shí)例

現(xiàn)有的中文縮略詞預(yù)測(cè)方法可以被認(rèn)為是基于特征的方法。它們通常是將縮略詞預(yù)測(cè)作為序列標(biāo)記問題,即對(duì)每個(gè) token 作二分類,去判斷是否該字符是否應(yīng)保留在縮略詞中。盡管取得了成就,但以前的方法仍然有以下缺點(diǎn):一方面,他們只使用轉(zhuǎn)移矩陣來尋找最高概率的標(biāo)簽,未能充分利用標(biāo)簽依賴關(guān)系;另一方面,他們忽略了實(shí)體相關(guān)文本的豐富信息,只利用實(shí)體本身的語義。事實(shí)上,我們可以獲取足夠的與給定實(shí)體相關(guān)的文本例如百度百科文本、景點(diǎn) POI 實(shí)體評(píng)論和 query 文本,能提供模型預(yù)測(cè)縮寫的信號(hào)。

為了解決這些問題,我們將中文縮略詞預(yù)測(cè)看作從全稱實(shí)體序列到縮略詞序列的定長(zhǎng)機(jī)器翻譯任務(wù)。貢獻(xiàn)包括,首先,我們提出了一種用于中文縮略詞預(yù)測(cè)的序列生成模型。其次,我們將實(shí)體相關(guān)上下文納入中文縮略詞預(yù)測(cè)任務(wù),為模型提供了更多語義信息。最后,我們構(gòu)建了旅游中文縮略詞數(shù)據(jù)集。此外,我們?cè)陲w豬搜索系統(tǒng)上部署的縮略詞實(shí)現(xiàn)了 2.03% 的轉(zhuǎn)化率提升。

研究框架

問題建模:針對(duì)給定的一個(gè)全稱實(shí)體 和其對(duì)應(yīng)的相關(guān)文本,CETAR 能生成一個(gè)其對(duì)應(yīng)的縮略詞序列。

模型框架:我們的模型框架由上下文增強(qiáng)編碼器和縮略-恢復(fù)解碼器組成。圖 2 是 CETAR 模型架構(gòu)框架圖。

▲ 圖2:基于上下文增強(qiáng)和縮略-恢復(fù)策略的縮略詞transformer框架圖

2.1 上下文增強(qiáng)編碼器

首先,將實(shí)體的完整形式 x 及其相關(guān)文本 d 都輸入到這個(gè)模塊。使用與 BERT 相同的初始化操作得到初始 embedding,以及它們的位置 embedding 一起輸入 transformer encoder block,生成一些重要的特征表示。為了減少數(shù)據(jù)的噪音,最終只取實(shí)體對(duì)應(yīng)的隱狀態(tài)輸入到解碼器當(dāng)中,以便后續(xù)的解碼。

2.2 縮略-恢復(fù)解碼器

這是我們模型生成縮略詞序列的關(guān)鍵模塊。它是用 transformer decoder block 和縮寫及恢復(fù)策略對(duì)應(yīng)的兩個(gè)分類器分別構(gòu)成。整個(gè)解碼過程是實(shí)際上是一個(gè)迭代的過程。具體來說,在每一輪開始時(shí),輸入上一輪過程輸出的由 n+2 個(gè) token 組成的 token 序列。然后,每個(gè) token 的初始 embedding 附加其位置 embedding,伴隨著解碼器的輸出 H, 然后輸入第一個(gè) transformer decoder block。最后,我們將最后一個(gè) block 輸出的隱藏狀態(tài)作為后續(xù)兩個(gè)分類器的輸入。

隨著所有標(biāo)記的隱藏狀態(tài),縮寫分類器或恢復(fù)分類器判斷序列中哪個(gè) token 應(yīng)該縮寫或恢復(fù)。在第k輪解碼過程中,縮寫分類器首先判斷序列中的每個(gè) token 是否應(yīng)該縮寫。類似地,恢復(fù)分類器判斷序列中每個(gè)特殊的縮略詞*是應(yīng)該保留還是恢復(fù)到相同位置的源 token。如下式所示,其中:

縮略分類器:

恢復(fù)分類器:

最后,縮略詞序列中的所有 * 都被刪除,并且因此我們得到了源實(shí)體的最終縮略詞。

實(shí)驗(yàn)結(jié)果

我們將 CETAR 與基線模型在三個(gè)中文縮寫數(shù)據(jù)集上進(jìn)行了比較,其中兩個(gè)屬于通用領(lǐng)域,一個(gè)屬于特定的景點(diǎn)領(lǐng)域。后者是基于阿里飛豬景點(diǎn) POI 實(shí)體及其別名構(gòu)建的中文縮略詞數(shù)據(jù)集。對(duì)于通用領(lǐng)域的數(shù)據(jù)集中的實(shí)體,我們選取了其百度百科描述性文本的第一句話作為相關(guān)文本;而對(duì)于飛豬中文縮略詞數(shù)據(jù)集中的景點(diǎn) POI 實(shí)體,我們則是以其最相關(guān)的評(píng)論文本及 query 文本作為相關(guān)文本。

至于評(píng)價(jià)指標(biāo),首先,我們使用 Hit 作為指標(biāo)來比較模型的性能。測(cè)試樣本被視為命中樣本如果它的預(yù)測(cè)縮寫和它 ground-truth 縮寫一模一樣。而 Hit score 是命中樣本占所有測(cè)試樣本的比例。此外,考慮到一些實(shí)體有多個(gè)縮寫,我們進(jìn)一步考慮了以下指標(biāo),這些指標(biāo)是基于對(duì)從測(cè)試集中隨機(jī)選擇的 500 個(gè)樣本的人工評(píng)估計(jì)算得出的,包括正確樣本、NA、NW 和 WOM 在所有人類評(píng)估樣本中的比例。

具體來說,NA 表示預(yù)測(cè)的縮略詞是正確的,但和 ground-truth 的縮略詞不同。NW 代表錯(cuò)誤且語言結(jié)構(gòu)異常的預(yù)測(cè)縮略詞,而 WOM 代表錯(cuò)誤但語言結(jié)構(gòu)正常的預(yù)測(cè)縮略詞。具體實(shí)例可見表 2。

▲ 表2: 縮略詞的四種不同形式實(shí)例

▲ 表3: 數(shù)據(jù)集一各模型表現(xiàn)

▲ 表4: 數(shù)據(jù)集二和數(shù)據(jù)集三各模型表現(xiàn)

從表 3 和表 4,我們得到以下結(jié)論:

1. 在命中率和準(zhǔn)確性方面,我們的 CETAR 在通用領(lǐng)域數(shù)據(jù)集( 和 )和特定領(lǐng)域數(shù)據(jù)集()上都優(yōu)于所有基線。

2. 所有模型的 NW 分?jǐn)?shù)幾乎都高于其 WOM 分?jǐn)?shù),說明不正確的分詞是導(dǎo)致錯(cuò)誤預(yù)測(cè)的主要原因。因此,單詞邊界的信息對(duì)于準(zhǔn)確的縮略詞預(yù)測(cè)非常重要。

3. 我們還發(fā)現(xiàn),大多數(shù)模型在 上的準(zhǔn)確度得分都優(yōu)于 和 。這是因?yàn)槁糜?POI 的縮寫通常由完整形式的連續(xù)標(biāo)記組成,例如“杭州西湖風(fēng)景區(qū)-西湖”,而一般領(lǐng)域的實(shí)體縮略詞通常由不連續(xù)的標(biāo)記組成。前者更容易讓模型實(shí)現(xiàn)準(zhǔn)確的預(yù)測(cè)。

▲ 表5: CETAR 針對(duì)數(shù)據(jù)集二中輸入實(shí)體不同長(zhǎng)度的文本(摘要)預(yù)測(cè)結(jié)果

3.1 消融實(shí)驗(yàn)

事實(shí)上,輸入過多的文本可能會(huì)產(chǎn)生過多的噪音,也會(huì)消耗更多的計(jì)算資源。為了尋求輸入文本的最佳長(zhǎng)度,我們比較了 CETAR 在 D2 上輸入百度百科實(shí)體摘要的前 1~4 個(gè)句子時(shí)的性能。

表 5 表明,輸入摘要的第一句表現(xiàn)最好。通過對(duì)從數(shù)據(jù)集中隨機(jī)抽取的 300 個(gè)樣本的調(diào)查,我們發(fā)現(xiàn)大約 75.33% 的第一句話提到了源實(shí)體的類型。這也證明了實(shí)體類型是促使 CETAR 生成正確縮略詞序列的關(guān)鍵信息。

▲ 表6: CETAR 針對(duì)數(shù)據(jù)集三中輸入實(shí)體不同長(zhǎng)度的文本(評(píng)論)預(yù)測(cè)結(jié)果

▲ 表7: CETAR 針對(duì)數(shù)據(jù)集三中輸入實(shí)體不同長(zhǎng)度的文本(query)預(yù)測(cè)結(jié)果

同樣,作為數(shù)據(jù)集三(表 6 & 表 7),CETAR 在將語義最相關(guān)(第一個(gè))的評(píng)論或查詢集作為相關(guān)文本時(shí)取得了最佳性能。通過深入調(diào)查,我們發(fā)現(xiàn)熱門評(píng)論(查詢)更有可能包含目標(biāo)實(shí)體的縮略詞,幫助 CETAR 實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè)。

3.2 應(yīng)用

為了驗(yàn)證縮略詞在搜索系統(tǒng)中提高召回率和準(zhǔn)確捕捉用戶搜索意圖的有效性,我們將 CETAR 預(yù)測(cè)的 56,190 個(gè) POI 實(shí)體的縮略詞部署到飛豬的搜索系統(tǒng)中。然后,我們進(jìn)行了持續(xù) 4 天的大規(guī)模 A/B 測(cè)試,發(fā)現(xiàn)處理桶與對(duì)照桶相比,獲得了 2.03% 的 CVR 提升。那為什么有意義呢?例如,基于精確關(guān)鍵字匹配的搜索系統(tǒng)不會(huì)為查詢“迪士尼樂園”返回酒店“上海迪士尼樂園酒店”,因?yàn)榫频甑拿Q與查詢不完全匹配。但是,如果預(yù)先將“迪士尼”識(shí)別為“迪士尼度假區(qū)”的縮略詞,則可以更輕松地將酒店與查詢相關(guān)聯(lián)。

總結(jié)

在本文中,我們提出了用于中文縮略詞預(yù)測(cè)的 CETAR,它利用了與源實(shí)體相關(guān)的信息上下文。CETAR 通過迭代解碼過程生成準(zhǔn)確的縮略詞序列,其中縮略分類器和恢復(fù)分類器交替工作。我們的實(shí)驗(yàn)證明了 CETAR 優(yōu)于 SOTA 方法的中文縮略詞預(yù)測(cè)。此外,我們?cè)诰包c(diǎn)領(lǐng)域成功構(gòu)建了一個(gè)中文縮略詞數(shù)據(jù)集,并已部署在現(xiàn)實(shí)世界的飛豬搜索系統(tǒng)上。系統(tǒng)的在線A/B測(cè)試實(shí)現(xiàn)了CVR的顯著提升,驗(yàn)證了縮略詞在促進(jìn)業(yè)務(wù)方面的價(jià)值。

審核編輯:郭婷


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23280

原文標(biāo)題:CIKM2022 | 基于文本增強(qiáng)和縮略-恢復(fù)策略的縮略詞Transformer

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    JSON:簡(jiǎn)潔代碼高效搞定序列化與反序列

    的數(shù)據(jù)交換格式,易于人類閱讀和編寫,同時(shí)也易于機(jī)器解析和生成。JSON雖源自JavaScript編程語言的子集,但其獨(dú)立于語言,已廣泛用于不同編程環(huán)境與系統(tǒng)之中。在嵌入
    的頭像 發(fā)表于 02-25 19:04 ?95次閱讀
    JSON:簡(jiǎn)潔代碼高效搞定<b class='flag-5'>序列</b>化與反<b class='flag-5'>序列</b>化

    什么是“TKU”(在 Dubhe-80 中)?

    所有TLA的和 ETLA's(擴(kuò)展的三個(gè)字母首字母縮略詞)在杜貝-90,我已經(jīng)知道了,或者可以鍛煉: PLIC - Platform-Level Interrupt
    發(fā)表于 02-25 07:11

    從數(shù)據(jù)到模型:如何預(yù)測(cè)細(xì)節(jié)距鍵合的剪切力?

    預(yù)估其剪切力?行業(yè)內(nèi)的研究數(shù)據(jù)為我們揭示了可能性。今天,科準(zhǔn)測(cè)控小編將帶您了解如何基于實(shí)驗(yàn)數(shù)據(jù)建立并應(yīng)用預(yù)測(cè)模型,實(shí)現(xiàn)從“測(cè)量”到“預(yù)估”的關(guān)鍵跨越。 一、從平方定律到經(jīng)驗(yàn)公式 直觀上,我們可能會(huì)假設(shè)
    發(fā)表于 01-08 09:45

    模型支撐后勤保障方案生成系統(tǒng):功能特點(diǎn)與平臺(tái)架構(gòu)解析

    ? ? 大模型支撐后勤保障方案生成系統(tǒng):功能特點(diǎn)與平臺(tái)架構(gòu)解析 ? ?大模型支撐后勤保障方案生成系統(tǒng)憑借智能預(yù)測(cè)、動(dòng)態(tài)調(diào)度、路徑優(yōu)化、庫存管
    的頭像 發(fā)表于 12-17 15:49 ?323次閱讀

    模型賦能物資需求精準(zhǔn)預(yù)測(cè)與采購(gòu)系統(tǒng):功能特點(diǎn)與平臺(tái)架構(gòu)解析

    ? ? 大模型賦能物資需求預(yù)測(cè)與采購(gòu)智能化:核心功能與價(jià)值解析 ? ?大模型賦能物資需求精準(zhǔn)預(yù)測(cè)與采購(gòu)系統(tǒng)通過深度整合多源數(shù)據(jù)、構(gòu)建動(dòng)態(tài)預(yù)測(cè)
    的頭像 發(fā)表于 12-16 11:54 ?303次閱讀

    世界模型是讓自動(dòng)駕駛汽車?yán)斫馐澜邕€是預(yù)測(cè)未來?

    做了什么? 世界模型,其實(shí)是一個(gè)“內(nèi)部表征+動(dòng)態(tài)預(yù)測(cè)”的組合。簡(jiǎn)單理解,世界模型就是將感知到的東西(圖像、點(diǎn)云、雷達(dá)、文本、動(dòng)作歷史)壓縮成一套內(nèi)部狀態(tài),然后用這套內(nèi)部狀態(tài)去生成
    的頭像 發(fā)表于 12-16 09:27 ?873次閱讀
    世界<b class='flag-5'>模型</b>是讓自動(dòng)駕駛汽車?yán)斫馐澜邕€是<b class='flag-5'>預(yù)測(cè)</b>未來?

    一文讀懂LSTM與RNN:從原理到實(shí)戰(zhàn),掌握序列建模核心技術(shù)

    在AI領(lǐng)域,文本翻譯、語音識(shí)別、股價(jià)預(yù)測(cè)等場(chǎng)景都離不開序列數(shù)據(jù)處理。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作為最早的序列建模工具,開創(chuàng)了“記憶歷史信息”的先河;而長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)則通過創(chuàng)新設(shè)計(jì),突破
    的頭像 發(fā)表于 12-09 13:56 ?1382次閱讀
    一文讀懂LSTM與RNN:從原理到實(shí)戰(zhàn),掌握<b class='flag-5'>序列</b>建模核心技術(shù)

    ATA-D60090功率放大器在時(shí)間調(diào)制序列生成中的應(yīng)用

    利用計(jì)算機(jī)生成波束掃描所需的的波束掃描的時(shí)間編碼序列。根據(jù)時(shí)間編碼序列,任意信號(hào)發(fā)生器產(chǎn)生的方波信號(hào)通過功率放大器產(chǎn)生控制電壓信號(hào)。
    的頭像 發(fā)表于 11-30 14:27 ?430次閱讀
    ATA-D60090功率放大器在時(shí)間調(diào)制<b class='flag-5'>序列</b><b class='flag-5'>生成</b>中的應(yīng)用

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    模型。 我們使用MNIST數(shù)據(jù)集,訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型用于手寫數(shù)字識(shí)別。一旦模型被訓(xùn)練并保存,就可以用于對(duì)新圖像進(jìn)行推理和
    發(fā)表于 10-22 07:03

    基于全局預(yù)測(cè)歷史的gshare分支預(yù)測(cè)器的實(shí)現(xiàn)細(xì)節(jié)

    是否被執(zhí)行以及它們的起跳地址。分支地址是指該條件分支指令的PC值。 下圖為GShare分支預(yù)測(cè)機(jī)制的原理流程圖。 當(dāng)處理器執(zhí)行到分支指令時(shí),GShare預(yù)測(cè)模塊可以將分支歷史和分支地址結(jié)合起來,生成
    發(fā)表于 10-22 06:50

    如何讓大模型生成你想要的測(cè)試用例?

    應(yīng)用大模型生成測(cè)試用例,常見的知識(shí)庫,測(cè)試大模型,微調(diào),RAG等技術(shù)門檻都不低,甚至很難,因此對(duì)于應(yīng)用者而言,最快的方式就是應(yīng)用好提示,調(diào)教屬于個(gè)人風(fēng)格的測(cè)試用例智能
    的頭像 發(fā)表于 09-26 10:01 ?952次閱讀
    如何讓大<b class='flag-5'>模型</b><b class='flag-5'>生成</b>你想要的測(cè)試用例?

    小白學(xué)大模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架構(gòu)中,注意力機(jī)制的計(jì)算復(fù)雜度與序列長(zhǎng)度(即文本長(zhǎng)度)呈平方關(guān)系()。這意味著,當(dāng)模型需要處理更長(zhǎng)的文本時(shí)(比如從幾千個(gè)到幾萬個(gè)),計(jì)算時(shí)間和所需的內(nèi)存會(huì)急
    的頭像 發(fā)表于 09-10 09:28 ?4808次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:大<b class='flag-5'>模型</b>加速的秘密 FlashAttention 1/2/3

    模型推理顯存和計(jì)算量估計(jì)方法研究

    方法。 一、引言 大模型推理是指在已知輸入數(shù)據(jù)的情況下,通過深度學(xué)習(xí)模型進(jìn)行預(yù)測(cè)或分類的過程。然而,大模型的推理過程對(duì)顯存和計(jì)算資源的需求較高,這給實(shí)際應(yīng)用帶來了以下挑戰(zhàn): 顯存不足:
    發(fā)表于 07-03 19:43

    ?Diffusion生成式動(dòng)作引擎技術(shù)解析

    Diffusion生成式動(dòng)作引擎 Diffusion生成式動(dòng)作引擎是一種基于擴(kuò)散模型(Diffusion Models)的生成式人工智能技術(shù),專注于
    的頭像 發(fā)表于 03-17 15:14 ?3058次閱讀

    使用OpenVINO GenAI和LoRA適配器進(jìn)行圖像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用戶可以將平平無奇的文本提示轉(zhuǎn)換為令人驚艷的視覺效果。
    的頭像 發(fā)表于 03-12 13:49 ?1884次閱讀
    使用OpenVINO GenAI和LoRA適配器進(jìn)行圖像<b class='flag-5'>生成</b>