91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ERNIE-Search模型結(jié)構(gòu)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:CS的陋室 ? 作者:CS的陋室 ? 2022-08-03 11:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

說(shuō)來(lái)慚愧,之前寫(xiě)了一篇對(duì)向量召回的總結(jié)(前沿重器[28] | 前沿的向量召回都是怎么做的),萬(wàn)萬(wàn)沒(méi)想到現(xiàn)在就來(lái)寫(xiě)新文章了,而且上面的總結(jié)還沒(méi)提到,大家當(dāng)做擴(kuò)展和補(bǔ)充吧。

眾所周知,在語(yǔ)義相似度上,交互式方案總會(huì)比非交互方案更容易獲得較好的效果,然而在召回上,非交互式方案(也就是表征式)具有得天獨(dú)厚的優(yōu)勢(shì),我們最終使用的,又不得不是非交互的方案,因此我們會(huì)嘗試進(jìn)一步優(yōu)化非交互方案。

最近開(kāi)始發(fā)現(xiàn)一些從交互式蒸餾到交互的方案,例如21年年末美團(tuán)提出的VIRT(VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction),今天我們來(lái)聊的是百度在22年5月份提出的方案,我認(rèn)為這篇論文是這個(gè)領(lǐng)域內(nèi)目前比較有代表性的,主要有這幾個(gè)原因:

整理了一些比較好的蒸餾思路和方向。

對(duì)這些蒸餾方案做了一些消融實(shí)驗(yàn)。

試驗(yàn)了一些前處理的方案,甚至包括一些furture pretrain。

論文和有關(guān)資料放這里:

原論文:ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval

文章講解:

https://zhuanlan.zhihu.com/p/522301876

https://blog.csdn.net/moxibingdao/article/details/125713542

https://zhuanlan.zhihu.com/p/518577648

表征式能逼近交互式嗎

之所以想先聊這個(gè),是因?yàn)橄胝f(shuō)一下這兩者之間存在的可能性,即表征式是否可以達(dá)到交互式的效果,從蘇神有關(guān)這塊的推理來(lái)看(https://spaces.ac.cn/archives/8860),其實(shí)是可行的,雖然這塊的推理并不算嚴(yán)格,但是這個(gè)推理已經(jīng)相對(duì)可靠了,換言之,我們可能可以找到更好的學(xué)習(xí)方法,找到這樣一組參數(shù),使表征式能達(dá)到交互式效果的這個(gè)理論高度。

ERNIE-Search模型結(jié)構(gòu)

模型結(jié)構(gòu),我比較想從損失函數(shù)開(kāi)始講,其實(shí)從損失函數(shù)看就能看出本文很大部分的貢獻(xiàn):

這個(gè)損失的內(nèi)容非常多,我把他分為兩個(gè)部分,一個(gè)是獨(dú)立訓(xùn)練的部分(不帶箭頭的),另一個(gè)是蒸餾部分(帶箭頭的)。首先是獨(dú)立訓(xùn)練的部分,這部分主要是直接針對(duì)標(biāo)簽進(jìn)行訓(xùn)練的,無(wú)論是teacher模型還是student模型,其實(shí)都是需要這個(gè)部分的。

:cross-encoder,交互式的方案,在這篇論文里,使用的是ERNIE2.0(4.1.3中提到)。

:late-interaction,延遲交互方案,這里是指介于交互式和表征式之間的方案,開(kāi)頭是雙塔,后續(xù)的交互式并非cos而是更復(fù)雜的交互方式,如ColBERT(ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT)。

:Dual-encoder,表征式方案,就是常說(shuō)的雙塔,本文用的是同樣是ERNIE2.0(4.1.3中提到)。

另一部分則是蒸餾部分,這里的蒸餾部分作者是做了很多的心血進(jìn)行分析的,構(gòu)造了好幾個(gè)損失函數(shù),分別是這些,這里的幾個(gè)蒸餾損失函數(shù)用的都是KL散度:

:交互方案蒸餾到延遲交互方案。

:延遲交互方案蒸餾到表征式方案(和共同形成級(jí)聯(lián)蒸餾)。

:交互方案蒸餾到表征式方案。

:最特別的一個(gè)。實(shí)質(zhì)上是一個(gè)token級(jí)別的交互損失,旨在希望延遲交互得到的attn矩陣和交互式的attn矩陣盡可能接近。

回到損失函數(shù)本身,其實(shí)會(huì)發(fā)現(xiàn)這個(gè)損失函數(shù)是由多個(gè)損失函數(shù)組合起來(lái)的,敏銳的我們可以發(fā)現(xiàn),這里的幾個(gè)損失之間的權(quán)重是完全一樣的,估計(jì)調(diào)整下可能還有些空間吧,不過(guò)也考慮到損失函數(shù)實(shí)在夠多了,調(diào)起來(lái)真的不容易。

說(shuō)起效果,這點(diǎn)作者是做了消融實(shí)驗(yàn)的:

2da671d4-1258-11ed-ba43-dac502259ad0.jpg

損失函數(shù)消融實(shí)驗(yàn)

從實(shí)驗(yàn)結(jié)果來(lái)看,其中貢獻(xiàn)最大的是,也就是交互方案蒸餾到延遲交互方案,其二是(我感覺(jué)就是),這個(gè)也挺符合直覺(jué)的吧,但是比較神奇的是去掉了比較多以后,就是#6的實(shí)驗(yàn),好像最終對(duì)結(jié)果的損失反而會(huì)變少,這個(gè)有些神奇,有待進(jìn)一步實(shí)驗(yàn)和探索吧,當(dāng)然,我感覺(jué)這里可能和權(quán)重也有關(guān)。

訓(xùn)練策略

還需要提一個(gè)關(guān)鍵點(diǎn)就是文章在4.1.3中提到的訓(xùn)練策略,這個(gè)特別的訓(xùn)練策略為最終的結(jié)果貢獻(xiàn)度不少(可以參考消融實(shí)驗(yàn)),因此展開(kāi)說(shuō)一下:

使用對(duì)應(yīng)語(yǔ)料對(duì)預(yù)訓(xùn)練模型(應(yīng)該就是ERNIR2.0)進(jìn)行繼續(xù)預(yù)訓(xùn)練,這個(gè)階段在文中也被稱(chēng)為post-train。

對(duì)QA任務(wù),使用交互式蒸餾到表征式的方案,訓(xùn)練表征式模型。

對(duì)QA任務(wù),再使用上面的級(jí)聯(lián)蒸餾方案,訓(xùn)練表征式模型,和上一條被聯(lián)合稱(chēng)為finetune階段。

另外,在3.4中,有提到一個(gè)訓(xùn)練策略叫Dual Regularization(DualReg),其實(shí)我感覺(jué)這個(gè)和r-dropout很相似(前沿重器[15] | R-Dropout——一次不行就兩次),用兩個(gè)不同隨機(jī)種子的dropout對(duì)表征式進(jìn)行前向訓(xùn)推理,得到兩個(gè)表征結(jié)果,用KL散度進(jìn)行學(xué)習(xí),而因?yàn)殡p塔,實(shí)際上要對(duì)q1和q2都這么做一次,所以實(shí)際上會(huì)多兩個(gè)損失函數(shù)。

2dbf2ca6-1258-11ed-ba43-dac502259ad0.jpg

訓(xùn)練策略消融實(shí)驗(yàn)

這些訓(xùn)練策略的效果,在4.3.1中有進(jìn)行消融實(shí)驗(yàn),如上圖所示,直觀地,從這個(gè)表其實(shí)可以發(fā)現(xiàn)幾個(gè)信息:

ID'(也就是交互式蒸餾)具有一定的優(yōu)勢(shì),尤其是在Finetuning階段,但是在Post-train中的收益似乎不那么明顯。

DualReg似乎是有些效果的,但是不清楚為什么要把CB(RocketQA中的提到的跨batch負(fù)采樣策略)也放一起,就感覺(jué)這個(gè)東西和本文的創(chuàng)新點(diǎn)沒(méi)啥關(guān)系,讓我們并不知道是CB的貢獻(xiàn),還是DualReg的貢獻(xiàn)了。

但是感覺(jué)做的有一些馬虎,主要是為了證明這個(gè)ID'(也就是交互式整流)的方案比較厲害,但是從這個(gè)表來(lái)看收效沒(méi)有想象的大額,不過(guò)有一說(shuō)一,前面的繼續(xù)預(yù)訓(xùn)練還是非常值得我們學(xué)習(xí)和嘗試的,這點(diǎn)我在(前沿重器[26] | 預(yù)訓(xùn)練模型的領(lǐng)域適配問(wèn)題)中有提到過(guò)。

小結(jié)

總結(jié)下來(lái),這篇文章最大的特點(diǎn)是把“通過(guò)學(xué)習(xí)交互式,來(lái)讓表征式效果進(jìn)一步提升”這個(gè)思路發(fā)揮很極致,讓我們知道了這個(gè)方案的潛力,這個(gè)是有些實(shí)驗(yàn)和落地價(jià)值的。

除此之外,這篇文章在初讀的時(shí)候,其實(shí)發(fā)現(xiàn)了不少新的概念(可能也是我有些匱乏吧),所以挖了不少坑,論文里的下面這張表其實(shí)都值得我好好讀一下,當(dāng)然也包括introduction里面的。

2dd06cfa-1258-11ed-ba43-dac502259ad0.jpg

對(duì)比實(shí)驗(yàn)

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4419

    瀏覽量

    67682
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3778

    瀏覽量

    52179

原文標(biāo)題:ERNIE-Search:向交互式學(xué)習(xí)的表征式語(yǔ)義匹配代表作

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    知識(shí)分享-嵌入式系統(tǒng)可靠性模型

    嵌入式系統(tǒng)可靠性設(shè)計(jì)技術(shù)及案例解析1.3嵌入式系統(tǒng)可靠性模型嵌入式系統(tǒng)可靠性模型分為兩種:串聯(lián)結(jié)構(gòu)模型和并聯(lián)結(jié)構(gòu)模型。在進(jìn)行嵌入式系統(tǒng)設(shè)計(jì)時(shí),為了保證部分關(guān)鍵環(huán)節(jié)的可靠性,會(huì)采取并聯(lián)備
    的頭像 發(fā)表于 03-11 16:43 ?200次閱讀
    知識(shí)分享-嵌入式系統(tǒng)可靠性<b class='flag-5'>模型</b>

    RDMA設(shè)計(jì)37:RoCE v2 子系統(tǒng)模型設(shè)計(jì)

    、五個(gè)處理單元及一個(gè) CM 管理器。 RoCE v2 子系統(tǒng)模型結(jié)構(gòu)如圖1所示: 圖1 RoCE v2 子系統(tǒng)模型結(jié)構(gòu)如圖 AXIS 總線接口及輸入輸出緩沖:用于從 DUT 的 AX
    發(fā)表于 02-06 16:19

    京東關(guān)鍵詞item_search-按關(guān)鍵字搜索京東商品

    京東關(guān)鍵詞搜索(item_search)技術(shù)實(shí)現(xiàn)指南:合規(guī) API 調(diào)用 + 數(shù)據(jù)運(yùn)營(yíng)實(shí)戰(zhàn) 京東商品關(guān)鍵詞搜索(item_search)是電商技術(shù)從業(yè)者核心需求之一,需優(yōu)先采用 京東官方開(kāi)放平臺(tái)
    的頭像 發(fā)表于 01-06 09:27 ?1132次閱讀

    京東按關(guān)鍵字搜索商品 API接口item_search Pro

    京東搜索商品 API(item_search Pro)賦能電商運(yùn)營(yíng)全指南 item_search Pro 是京東商品搜索接口的增強(qiáng)版(第三方封裝或官方增強(qiáng)能力),核心用于按關(guān)鍵詞 / 條件檢索商品
    的頭像 發(fā)表于 01-05 11:03 ?606次閱讀

    百度文心大模型5.0 Preview榮登LMArena文本榜國(guó)內(nèi)第一

    12月23日,LMArena大模型競(jìng)技場(chǎng)發(fā)布最新排名,文心新模型ERNIE-5.0-Preview-1203以1451分登上LMArena文本榜,排名國(guó)內(nèi)第一該模型在創(chuàng)意寫(xiě)作、高難度指
    的頭像 發(fā)表于 12-23 15:02 ?598次閱讀

    二進(jìn)制查找(Binary Search)介紹

    二進(jìn)制查找(Binary Search)用于在已排序的數(shù)組中執(zhí)行二進(jìn)制查找的函數(shù)。 int binary_search(int arr[], int size, int target
    發(fā)表于 12-12 06:54

    百度文心大模型5.0-Preview文本能力國(guó)內(nèi)第一

    11月8日凌晨,LMArena大模型競(jìng)技場(chǎng)最新排名顯示,文心全新模型ERNIE-5.0-Preview-1022登上文本排行榜全球并列第二、中國(guó)第一該模型在創(chuàng)意寫(xiě)作、復(fù)雜長(zhǎng)問(wèn)題理解、指
    的頭像 發(fā)表于 11-11 17:15 ?1546次閱讀

    如何在vivadoHLS中使用.TLite模型

    使用read_checkpoint命令或通過(guò)界面導(dǎo)入模型文件。 2. 檢查模型的輸入和輸出節(jié)點(diǎn)名稱(chēng) 可以使用model.summary()或其他方法來(lái)查看模型結(jié)構(gòu)和層名稱(chēng)。 3.
    發(fā)表于 10-22 06:29

    Siumulink模型測(cè)試典型問(wèn)題分享——模型層級(jí)設(shè)計(jì)不合理

    典型測(cè)試問(wèn)題分享-模型層級(jí)設(shè)計(jì)不合理 問(wèn)題描述: ?重點(diǎn)功能與非重點(diǎn)功能混合,導(dǎo)致測(cè)試層級(jí)選擇困難。 ?模型未體現(xiàn)層級(jí)劃分,結(jié)構(gòu)平鋪導(dǎo)致層級(jí)圈復(fù)雜度異常。 ?部分計(jì)算/判斷/賦值等結(jié)構(gòu)
    的頭像 發(fā)表于 09-20 12:31 ?3007次閱讀
    Siumulink<b class='flag-5'>模型</b>測(cè)試典型問(wèn)題分享——<b class='flag-5'>模型</b>層級(jí)設(shè)計(jì)不合理

    NVMe高速傳輸之?dāng)[脫XDMA設(shè)計(jì)27: 橋設(shè)備模型設(shè)計(jì)

    構(gòu)造 PCIe Switch 模型。 最小橋設(shè)備模型結(jié)構(gòu)如圖 1所示。圖1 最小橋設(shè)備模型結(jié)構(gòu)圖 最小橋設(shè)備
    發(fā)表于 09-18 09:11

    小語(yǔ)種OCR標(biāo)注效率提升10+倍:PaddleOCR+ERNIE 4.5自動(dòng)標(biāo)注實(shí)戰(zhàn)解析

    摘要 :小語(yǔ)種OCR研發(fā)的核心瓶頸在于高質(zhì)量標(biāo)注數(shù)據(jù)的稀缺與高昂成本。本文介紹一種創(chuàng)新的自動(dòng)化標(biāo)注方案,利用 PaddleOCR 進(jìn)行文本檢測(cè)與裁剪,并調(diào)用 ERNIE 4.5 大模型進(jìn)行雙重預(yù)測(cè)
    的頭像 發(fā)表于 08-29 11:26 ?3792次閱讀
    小語(yǔ)種OCR標(biāo)注效率提升10+倍:PaddleOCR+<b class='flag-5'>ERNIE</b> 4.5自動(dòng)標(biāo)注實(shí)戰(zhàn)解析

    模型推理顯存和計(jì)算量估計(jì)方法研究

    、顯存估計(jì)方法 基于模型結(jié)構(gòu)的顯存估計(jì) 根據(jù)深度學(xué)習(xí)模型的層次結(jié)構(gòu)和參數(shù)數(shù)量,可以估算模型在推理過(guò)程中所需的顯存大小。具體方法如下: (1)
    發(fā)表于 07-03 19:43

    Say Hi to ERNIE!Imagination GPU率先完成文心大模型的端側(cè)部署

    ImaginationTechnologies宣布率先完成百度文心大模型ERNIE4.5開(kāi)源版)在其GPU硬件上的端側(cè)部署。適配完成后,開(kāi)發(fā)者可在搭載ImaginationGPU的設(shè)備上實(shí)現(xiàn)高效
    的頭像 發(fā)表于 07-01 08:17 ?1011次閱讀
    Say Hi to <b class='flag-5'>ERNIE</b>!Imagination GPU率先完成文心大<b class='flag-5'>模型</b>的端側(cè)部署

    NVIDIA助力圖靈新訊美推出企業(yè)級(jí)多模態(tài)視覺(jué)大模型融合解決方案

    憑借深厚的行業(yè)經(jīng)驗(yàn)和系統(tǒng)集成能力,圖靈新訊美率先基于 NVIDIA 用于視頻搜索與總結(jié) (VSS, Video Search and Summarization) 的 AI Blueprint,在
    的頭像 發(fā)表于 06-26 09:17 ?1403次閱讀

    從FA模型切換到Stage模型時(shí):module的切換說(shuō)明

    mainAbility。mainElement標(biāo)簽名稱(chēng)變更,Stage模型不在使用“.”符號(hào)。 package標(biāo)識(shí)HAP的包結(jié)構(gòu)名稱(chēng),在應(yīng)用內(nèi)保證唯一性。/Stage模型使用name來(lái)保證應(yīng)用唯一性。FA
    發(fā)表于 06-05 08:16