91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

快速了解文本語義相似度領域的研究脈絡和進展

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2022-08-16 10:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文旨在幫大家快速了解文本語義相似度領域的研究脈絡和進展,其中包含了本人總結的文本語義相似度任務的處理步驟,文本相似度模型發(fā)展歷程,相關數據集,以及重要論文分享。

文本相似度任務處理步驟

通過該領域的大量論文閱讀,我認為處理文本相似度任務時可以分為一下三個步驟:

預處理:如數據清洗等。此步驟旨在對文本做一些規(guī)范化操作,篩選有用特征,去除噪音。

文本表示:當數據被預處理完成后,就可以送入模型了。在文本相似度任務中,需要有一個模塊用于對文本的向量化表示,從而為下一步相似度比較做準備。這個部分一般會選用一些 backbone 模型,如 LSTM,BERT 等。

學習范式的選擇:這個步驟也是文本相似度任務中最重要的模塊,同時也是區(qū)別于 NLP 領域其他任務的一個模塊。其主要原因在于相似度是一個比較的過程,因此我們可以選用各種各樣的比較的方式來達成目標??晒┻x擇的學習方式有:孿生網絡模型,交互網絡模型,對比學習模型等。

文本相似度模型發(fā)展歷程

從傳統(tǒng)的無監(jiān)督相似度方法,到孿生模型,交互式模型,BERT,以及基于BERT的一些改進工作,如下圖:

bbcb77b8-1cfb-11ed-ba43-dac502259ad0.png

總體來說,在 BERT 出現之前,文本相似度任務可以說是一個百花齊放的過程。大家通過各種方式來做相似度比較的都有。從 BERT 出現之后,由于 BERT 出色的性能,之后的工作主要是基于 BERT 的改進。在這個階段,大家所采用的數據集,評價指標等也逐漸進行了統(tǒng)一。

數據集

在 BERT 以后,大家在文本相似度任務上逐漸統(tǒng)一了數據集的選擇,分別為 STS12,STS13,STS14,STS15,STS16,STS-B,SICK-R 七個數據集。STS12-16 分別為 SemEval 比賽 2012~2016 年的數據集。此外,STS-B 和 SICK-R 也是 SemEval 比賽數據集。在這些數據集中,每一個文本對都有一個 0~5 分的人工打標相似度分數(也稱為 gold label),代表這個文本對的相似程度。

評價指標

首先,對于每一個文本對,采用余弦相似度對其打分。打分完成后,采用所有余弦相似度分數和所有 gold label 計算 Spearman Correlation。

其中,Pearson Correlation 與 Spearman Correlation 都是用來計算兩個分布之間相關程度的指標。Pearson Correlation 計算的是兩個變量是否線性相關,而 Spearman Correlation 關注的是兩個序列的單調性是否一致。并且論文《Task-Oriented Intrinsic Evaluation of Semantic Textual Similarity》證明,采用 Spearman Correlation 更適合評判語義相似度任務。Pearson Correlation 與 Spearman Correlation 的公式如下:

bbfbd610-1cfb-11ed-ba43-dac502259ad0.png

論文分享

Siamese Recurrent Architectures for Learning Sentence Similarity, AAAI 2016

https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12195/12023

bc1747ec-1cfb-11ed-ba43-dac502259ad0.png

Siamese LSTM 是一個經典的孿生網絡模型,它將需要對比的兩句話分別通過不同的 LSTM 進行編碼,并采用兩個 LSTM 最后一個時間步的輸出來計算曼哈頓距離,并通過 MSE loss 進行反向傳導。

Bilateral Multi-Perspective Matching for Natural Language Sentences, IJCAI 2017

https://arxiv.org/abs/1702.03814

bc263d10-1cfb-11ed-ba43-dac502259ad0.png

BiMPM 是一個經典的交互式模型,它將兩句話用不同的 Bi-LSTM 模型分別編碼,并通過注意力的方式使得當前句子的每一個詞都和另一個句子中的每一個詞建立交互關系(左右句子是對稱的過程),從而學習到更深層次的匹配知識。在交互之后,再通過 Bi-LSTM 模型分別編碼,并最終輸出。

對于交互的過程,作者設計了四種交互方式,分別為:

句子 A 中每個詞與句子 B 的最后一個詞進行交互

句子 A 中每個詞與句子 B 的每個詞進行交互,并求 element-wise maximum

通過句子 A 中的詞篩選句子 B 中的每一個詞,并將句子 B 的詞向量加權求和,最終于 A 詞對比

與 c 幾乎一致,只不過將加權求和操作變成 element-wise maximum

具體的交互形式是由加權的余弦相似度方式完成。

bc39e1da-1cfb-11ed-ba43-dac502259ad0.png

bc461d60-1cfb-11ed-ba43-dac502259ad0.png

其中,Wk 是參數矩陣,可以理解為 attention 的 query 或者 key,v1 和 v2 分別是要進行交互的兩個詞,這樣計算 l 次余弦相似度,就會得到 m 向量(一個 l 維向量)。

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

https://arxiv.org/abs/1810.04805

BERT 可以認為是語義相似度任務的分水嶺。BERT 論文中對 STS-B 數據集進行有監(jiān)督訓練,最終達到了 85.8 的 Spearman Correlation 值。這個分數相較于后續(xù)絕大部分的改進工作都要高,但 BERT 的缺點也很明顯。對于語義相似度任務來說:

在有監(jiān)督范式下,BERT 需要將兩個句子合并成一個句子再對其編碼,如果需要求很多文本兩兩之間的相似度,BERT 則需要將其排列組合后送入模型,這極大的增加了模型的計算量。

在無監(jiān)督范式下,BERT 句向量中攜帶的語義相似度信息較少。從下圖可以看出,無論是采用 CLS 向量還是詞向量平均的方式,都還比不過通過 GloVe 訓練的詞向量求平均的方式要效果好。

bc559024-1cfb-11ed-ba43-dac502259ad0.png

基于以上痛點,涌現出一批基于 BERT 改進的優(yōu)秀工作。

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, EMNLP 2019

https://arxiv.org/abs/1908.10084

Sentence-BERT 是一篇采用孿生 BERT 架構的工作。Sentence-BERT 作者指出,如果想用 BERT 求出 10000 個句子之間兩兩的相似度,排列組合的方式在 V100 GPU 上測試需要花費 65 小時;而如果先求出 10000 個句子,再計算余弦相似度矩陣,則只需要花費 5 秒左右。因此,作者提出了通過孿生網絡架構訓練 BERT 句向量的方式。

Sentence-BERT 一共采用了三種 loss,也就是三種不同的方式訓練孿生 BERT 架構,分別為 Cross-entropy loss,MSE loss 以及 Triple loss,模型圖如下:

bc673bb2-1cfb-11ed-ba43-dac502259ad0.png

On the Sentence Embeddings from Pre-trained Language Models, EMNLP 2020

https://arxiv.org/abs/2011.05864

BERT-flow 是一篇通過對 BERT 句向量做后處理的工作。作者認為,直接用 BERT 句向量來做相似度計算效果較差的原因并不是 BERT 句向量中不包含語義相似度信息,而是其中包含的相似度信息在余弦相似度等簡單的指標下無法很好的體現出來。

首先,作者認為,無論是 Language Modelling 還是 Masked Language Modelling,其實都是在最大化給定的上下文與目標詞的共現概率,也就是 Ct 和 Xt 的貢獻概率。Language Modelling 與 Masked Language Modelling 的目標函數如下:

bc782e0e-1cfb-11ed-ba43-dac502259ad0.png

因此,如果兩句話預測出的 Xt 一致,那么兩句話的 Ct 向量很有可能也是相似的!考慮如下兩句話:

今天中午吃什么?

今天晚上吃什么?

通過這兩句話訓練出的語言模型都通過上下文預測出了“吃“這個字,那說明這兩句話的句向量也很可能是相似的,具有相似的語義信息。

其次,作者通過觀察發(fā)現,BERT 的句向量空間是各向異性的,且高頻詞距離原點較近,低頻詞距離較遠,且分布稀疏。因此 BERT 句向量無法體現出其中包含的相似度信息。

bc86c338-1cfb-11ed-ba43-dac502259ad0.png

因此,作者認為可以通過一個基于流的生成模型來對 BERT 句向量空間進行映射。具體來說,作者希望訓練出一個標準的高斯分布,使得該分布中的點可以與 BERT 句向量中的點一一映射。由于該方法采用的映射方式是可逆的,因此就可以通過給定的 BERT 句向量去映射回標準高斯空間,然后再去做相似度計算。由于標準高斯空間是各向同性的,因此能夠將句向量中的語義相似度信息更好的展現出來。

bc9ed608-1cfb-11ed-ba43-dac502259ad0.png

SimCSE: Simple Contrastive Learning of Sentence Embeddings, EMNLP 2021

https://arxiv.org/abs/2104.08821

SimCSE 是一篇基于對比學習的語義相似度模型。首先,對比學習相較于文本對之間的匹配,可以在拉近正例的同時,同時將其與更多負例之間的距離拉遠,從而訓練出一個更加均勻的超球體向量空間。作為一類無監(jiān)督算法,對比學習中最重要的創(chuàng)新點之一是如何構造正樣本對,去學習到類別內部的一些本質特征。

SimCSE 采用的是一個極其樸素,性能卻又出奇的好的方法,那就是將一句話在訓練的時候送入模型兩次,利用模型自身的 dropout 來生成兩個不同的 sentence embedding 作為正例進行對比。模型圖如下:

bcaafb86-1cfb-11ed-ba43-dac502259ad0.png

ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer, ACL 2021

https://arxiv.org/abs/2105.11741

ConSERT 同樣也是一篇基于對比學習的文本相似度工作。ConSERT 是采用多種數據增強的方式來構造正例的。其中包括對抗攻擊,打亂文本中的詞順序,Cutoff以及 Dropout。這里需要注意的是,雖然 ConSERT 與 SimCSE 都采用了 Dropout,但 ConSERT 的數據增強操作只停留在 embedding layer,而 SimCSE 則是采用了 BERT 所有層中的 Dropout。此外,作者實驗證明,在這四種數據增強方式中,Token Shuffling 和 Token Cutoff 是最有效的。

Exploiting Sentence Embedding for Medical Question Answering, AAAI 2018

https://arxiv.org/abs/1811.06156

注:由于本人工作中涉及的業(yè)務主要為智慧醫(yī)療,因此會有傾向的關注醫(yī)療人工智能領域的方法和模型。

MACSE 是一篇針對醫(yī)學文本的句向量表征工作,雖然其主要關注的是 QA 任務,但他的句向量表征方式在文本相似度任務中同樣適用。

醫(yī)學文本區(qū)別于通用文本的一大特征就是包含復雜的多尺度信息,如下:

bcc39448-1cfb-11ed-ba43-dac502259ad0.png

因此,我們就需要一個能夠關注到醫(yī)學文本多尺度信息的模型。

bcd2bb6c-1cfb-11ed-ba43-dac502259ad0.png

在本文中,通過多尺度的卷積操作,就可以有效的提取到文本中的多尺度信息,并且通過注意力機制對多尺度信息進行加權,從而有效的關注到特定文本中在特定尺度上存在的重要信息。

實驗結果匯總

以下為眾多基于 BERT 改進的模型在標準數據集上測試的結果,出自 SimCSE 論文:

bcf801d8-1cfb-11ed-ba43-dac502259ad0.png

可以看到,BERT-flow 相較于原生 BERT 提升了將近 10 個點,而基于對比學習的工作又要比基于后處理的工作的效果好很多。此外需要注意的是,在這里 Sentence-BERT 被歸為了有監(jiān)督模型中。這是因為 Sentence-BERT 雖然沒有用到 STS 標簽,但訓練時用的是 NLI 數據集,也用到了 NLI 中人工打標的標簽,因此 SimCSE 作者將 Sentence-BERT 歸為了有監(jiān)督模型中。

好了,以上就是文本語義相似度領域的研究脈絡和進展,希望能對大家有所幫助。當然 2022 年也有不少優(yōu)秀的工作出現,不過這一部分就留到以后吧!

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3751

    瀏覽量

    52091
  • 語義
    +關注

    關注

    0

    文章

    22

    瀏覽量

    8802
  • 文本
    +關注

    關注

    0

    文章

    120

    瀏覽量

    17861

原文標題:一文詳解文本語義相似度的研究脈絡和最新進展

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    RDMA設計46:RoCE v2原語功能:單邊語義

    驗證測試項與測試步驟 (2)單邊語義驗證測試步驟3的關鍵波形如圖1所示,當提交隊列非空時,RoCE v2發(fā)送模塊提取提交隊列條目、組裝數據包并發(fā)送,符合設計預期,驗證通過。圖1 SEND數據包組裝
    發(fā)表于 03-01 23:14

    清華大學在分焦面超像素陣列光刻制造領域取得新進展

    國際研究生院李星輝副教授團隊在分焦面超像素陣列光刻制造領域取得新進展,為中紅外偏振成像系統(tǒng)的關鍵器件制備提供了新方案。 圖2.本研究提出的混合光刻加工系統(tǒng) 針對中紅外偏振成像場景,
    的頭像 發(fā)表于 01-21 09:10 ?97次閱讀
    清華大學在分焦面超像素陣列光刻制造<b class='flag-5'>領域</b>取得新<b class='flag-5'>進展</b>

    Progress-Think框架賦能機器人首次實現語義進展推理

    在視覺語言導航(VLN)中,機器人長期缺乏一種關鍵能力:它能持續(xù)前進,卻無法判斷自己的任務推進到了哪一步。導航在空間中不斷展開,畫面節(jié)節(jié)推進,但模型并不知道自己在自然語言指令里處于什么階段,因此容易漂移、兜圈,或做出難以解釋的決策。我們認為,引入語義進展推理,是破解長程導
    的頭像 發(fā)表于 12-03 09:27 ?342次閱讀
    Progress-Think框架賦能機器人首次實現<b class='flag-5'>語義</b><b class='flag-5'>進展</b>推理

    SGS為TCL華星自然光MNT顯示頒發(fā)高自然光相似 Performance Tested Mark

    華星27"自然光MNT顯示頒發(fā)"高自然光相似Performance Tested Mark",這是繼2025年9月1日TCL華星12.1"教育平板顯示獲得全球首張SGS高自然光相似
    的頭像 發(fā)表于 10-19 20:26 ?404次閱讀
    SGS為TCL華星自然光MNT顯示頒發(fā)高自然光<b class='flag-5'>相似</b><b class='flag-5'>度</b> Performance Tested Mark

    上海光機所在全息光刻研究方面取得進展

    圖1 肘形圖形為目標圖形,不同方法得到的全息掩模分布、空間像與光刻膠輪廓 近日,中國科學院上海光學精密機械研究所高端光電裝備部李思坤研究員團隊在全息光刻研究方面取得進展。相關成果以
    的頭像 發(fā)表于 09-19 09:19 ?564次閱讀
    上海光機所在全息光刻<b class='flag-5'>研究</b>方面取得<b class='flag-5'>進展</b>

    大華股份入選2025年物聯網領域十大科技進展

    近日,由中國電子學會、中國通信學會聯合主辦的2025物聯網大會在江蘇無錫舉辦。會上發(fā)布了“2025年物聯網領域十大科技進展”,由浙江大學、中國電信集團有限公司、中國移動通信集團浙江有限公司、中國
    的頭像 發(fā)表于 09-09 16:22 ?4030次閱讀

    格靈深瞳視覺基礎模型Glint-MVT的發(fā)展脈絡

    此前,8月28-30日,2025百云智大會在北京舉辦。在算力平臺專題論壇上,格靈深瞳技術副總裁、算法研究院院長馮子勇分享了《視覺基座:通向世界模型之路——格靈深瞳Glint-MVT讓AI看懂世界
    的頭像 發(fā)表于 09-05 17:13 ?1681次閱讀
    格靈深瞳視覺基礎模型Glint-MVT的發(fā)展<b class='flag-5'>脈絡</b>

    微雙重驅動的新型直線電機研究

    摘罷:大行程、高精度,同時易于小型化的移動機構是先進制造業(yè)等領域要解決的關鍵問題之一,綜述了現有宏/微雙重驅動機構和直線超聲電機的研究進展和存在問題,提出了一種宏微雙重驅動新型直線壓電電機,使其既能
    發(fā)表于 06-24 14:17

    氧化鎵射頻器件研究進展

    ,首先介紹了 Ga2O3在射頻器件領域的優(yōu)勢和面臨的挑戰(zhàn),然后綜述了近年來 Ga2O3射頻器件在體摻雜溝道、AlGaO/Ga2O3調制 摻雜異質結以及與高導熱襯底異質集成方面取得的進展,并對研究結果進行了討論,最后展望了未來 G
    的頭像 發(fā)表于 06-11 14:30 ?2448次閱讀
    氧化鎵射頻器件<b class='flag-5'>研究進展</b>

    【「零基礎開發(fā)AI Agent」閱讀體驗】+Agent的案例解讀

    在Agent開發(fā)平臺扣子上,有許多成功的案例,例如識典古籍就是基于扣子搭建智能助手所提供的古籍智能化檢索、圖文對照、語義分析等功能,它極大地提升了用戶的閱讀和研究效率。 客戶及開發(fā)背景? 識典古籍
    發(fā)表于 05-14 11:23

    在AI領域的最新進展

    近日,我們在武漢舉辦了Create2025百AI開發(fā)者大會,與全球各地的5000多名開發(fā)者,分享了百在AI領域的新進展
    的頭像 發(fā)表于 04-30 10:14 ?1324次閱讀

    蘭州大學:研究團隊在溫度傳感用發(fā)光材料領域取得新進展

    ? 近日,蘭州大學材料與能源學院王育華教授課題組在溫度傳感用發(fā)光材料領域取得了新進展。相關研究成果以“Luminescence Thermometry via MultiParameter
    的頭像 發(fā)表于 04-25 15:23 ?583次閱讀
    蘭州大學:<b class='flag-5'>研究</b>團隊在溫度傳感用發(fā)光材料<b class='flag-5'>領域</b>取得新<b class='flag-5'>進展</b>

    西安光機所在太赫茲超表面逆向設計領域取得新進展

    高精度超表面逆向設計方法及透射/反射雙功能的寬頻段聚焦渦旋光產生器示意圖 近日,中國科學院西安光機所超快光科學與技術全國重點實驗室在太赫茲頻段超表面逆向設計領域取得新進展,相關研究成果以《High
    的頭像 發(fā)表于 04-22 06:12 ?781次閱讀
    西安光機所在太赫茲超表面逆向設計<b class='flag-5'>領域</b>取得新<b class='flag-5'>進展</b>

    電機檢測快速安裝試驗臺軌跡研究

    效率,縮短裝機時間是急需解決的間題 純分享帖,需要者可點擊附件獲取完整資料~~~ *附件:電機檢測快速安裝試驗臺軌跡研究.pdf 【免責聲明】本文系網絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,刪除內容!
    發(fā)表于 04-11 09:52

    《AI Agent 應用與項目實戰(zhàn)》閱讀心得3——RAG架構與部署本地知識庫

    。RAG技術建立在向量數據庫的基礎上,通過高維向量空間中的相似計算來實現語義層面的匹配,這比傳統(tǒng)的關鍵詞搜索更能捕捉文本的深層語義關聯。
    發(fā)表于 03-07 19:49