高清无码不卡福利在线播放,亚洲精品AⅤ无码

說(shuō)來(lái)慚愧，之前寫(xiě)了一篇對(duì)向量召回的總結(jié)（前沿重器[28] | 前沿的向量召回都是怎么做的），萬(wàn)萬(wàn)沒(méi)想到現(xiàn)在就來(lái)寫(xiě)新文章了，而且上面的總結(jié)還沒(méi)提到，大家當(dāng)做擴(kuò)展和補(bǔ)充吧。

眾所周知，在語(yǔ)義相似度上，交互式方案總會(huì)比非交互方案更容易獲得較好的效果，然而在召回上，非交互式方案（也就是表征式）具有得天獨(dú)厚的優(yōu)勢(shì)，我們最終使用的，又不得不是非交互的方案，因此我們會(huì)嘗試進(jìn)一步優(yōu)化非交互方案。

最近開(kāi)始發(fā)現(xiàn)一些從交互式蒸餾到交互的方案，例如21年年末美團(tuán)提出的VIRT（VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction），今天我們來(lái)聊的是百度在22年5月份提出的方案，我認(rèn)為這篇論文是這個(gè)領(lǐng)域內(nèi)目前比較有代表性的，主要有這幾個(gè)原因：

整理了一些比較好的蒸餾思路和方向。

對(duì)這些蒸餾方案做了一些消融實(shí)驗(yàn)。

試驗(yàn)了一些前處理的方案，甚至包括一些furture pretrain。

論文和有關(guān)資料放這里：

原論文：ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval

文章講解：

https://zhuanlan.zhihu.com/p/522301876

https://blog.csdn.net/moxibingdao/article/details/125713542

https://zhuanlan.zhihu.com/p/518577648

表征式能逼近交互式嗎

之所以想先聊這個(gè)，是因?yàn)橄胝f(shuō)一下這兩者之間存在的可能性，即表征式是否可以達(dá)到交互式的效果，從蘇神有關(guān)這塊的推理來(lái)看（https://spaces.ac.cn/archives/8860），其實(shí)是可行的，雖然這塊的推理并不算嚴(yán)格，但是這個(gè)推理已經(jīng)相對(duì)可靠了，換言之，我們可能可以找到更好的學(xué)習(xí)方法，找到這樣一組參數(shù)，使表征式能達(dá)到交互式效果的這個(gè)理論高度。

ERNIE-Search模型結(jié)構(gòu)

模型結(jié)構(gòu)，我比較想從損失函數(shù)開(kāi)始講，其實(shí)從損失函數(shù)看就能看出本文很大部分的貢獻(xiàn)：

這個(gè)損失的內(nèi)容非常多，我把他分為兩個(gè)部分，一個(gè)是獨(dú)立訓(xùn)練的部分（不帶箭頭的），另一個(gè)是蒸餾部分（帶箭頭的）。首先是獨(dú)立訓(xùn)練的部分，這部分主要是直接針對(duì)標(biāo)簽進(jìn)行訓(xùn)練的，無(wú)論是teacher模型還是student模型，其實(shí)都是需要這個(gè)部分的。

：cross-encoder，交互式的方案，在這篇論文里，使用的是ERNIE2.0（4.1.3中提到）。

：late-interaction，延遲交互方案，這里是指介于交互式和表征式之間的方案，開(kāi)頭是雙塔，后續(xù)的交互式并非cos而是更復(fù)雜的交互方式，如ColBERT（ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT）。

：Dual-encoder，表征式方案，就是常說(shuō)的雙塔，本文用的是同樣是ERNIE2.0（4.1.3中提到）。

另一部分則是蒸餾部分，這里的蒸餾部分作者是做了很多的心血進(jìn)行分析的，構(gòu)造了好幾個(gè)損失函數(shù)，分別是這些，這里的幾個(gè)蒸餾損失函數(shù)用的都是KL散度：

：交互方案蒸餾到延遲交互方案。

：延遲交互方案蒸餾到表征式方案（和共同形成級(jí)聯(lián)蒸餾）。

：交互方案蒸餾到表征式方案。

：最特別的一個(gè)。實(shí)質(zhì)上是一個(gè)token級(jí)別的交互損失，旨在希望延遲交互得到的attn矩陣和交互式的attn矩陣盡可能接近。

回到損失函數(shù)本身，其實(shí)會(huì)發(fā)現(xiàn)這個(gè)損失函數(shù)是由多個(gè)損失函數(shù)組合起來(lái)的，敏銳的我們可以發(fā)現(xiàn)，這里的幾個(gè)損失之間的權(quán)重是完全一樣的，估計(jì)調(diào)整下可能還有些空間吧，不過(guò)也考慮到損失函數(shù)實(shí)在夠多了，調(diào)起來(lái)真的不容易。

說(shuō)起效果，這點(diǎn)作者是做了消融實(shí)驗(yàn)的：

損失函數(shù)消融實(shí)驗(yàn)

從實(shí)驗(yàn)結(jié)果來(lái)看，其中貢獻(xiàn)最大的是，也就是交互方案蒸餾到延遲交互方案，其二是（我感覺(jué)就是），這個(gè)也挺符合直覺(jué)的吧，但是比較神奇的是去掉了比較多以后，就是#6的實(shí)驗(yàn)，好像最終對(duì)結(jié)果的損失反而會(huì)變少，這個(gè)有些神奇，有待進(jìn)一步實(shí)驗(yàn)和探索吧，當(dāng)然，我感覺(jué)這里可能和權(quán)重也有關(guān)。

訓(xùn)練策略

還需要提一個(gè)關(guān)鍵點(diǎn)就是文章在4.1.3中提到的訓(xùn)練策略，這個(gè)特別的訓(xùn)練策略為最終的結(jié)果貢獻(xiàn)度不少（可以參考消融實(shí)驗(yàn)），因此展開(kāi)說(shuō)一下：

使用對(duì)應(yīng)語(yǔ)料對(duì)預(yù)訓(xùn)練模型（應(yīng)該就是ERNIR2.0）進(jìn)行繼續(xù)預(yù)訓(xùn)練，這個(gè)階段在文中也被稱(chēng)為post-train。

對(duì)QA任務(wù)，使用交互式蒸餾到表征式的方案，訓(xùn)練表征式模型。

對(duì)QA任務(wù)，再使用上面的級(jí)聯(lián)蒸餾方案，訓(xùn)練表征式模型，和上一條被聯(lián)合稱(chēng)為finetune階段。

另外，在3.4中，有提到一個(gè)訓(xùn)練策略叫Dual Regularization（DualReg），其實(shí)我感覺(jué)這個(gè)和r-dropout很相似（前沿重器[15] | R-Dropout——一次不行就兩次），用兩個(gè)不同隨機(jī)種子的dropout對(duì)表征式進(jìn)行前向訓(xùn)推理，得到兩個(gè)表征結(jié)果，用KL散度進(jìn)行學(xué)習(xí)，而因?yàn)殡p塔，實(shí)際上要對(duì)q1和q2都這么做一次，所以實(shí)際上會(huì)多兩個(gè)損失函數(shù)。

訓(xùn)練策略消融實(shí)驗(yàn)

這些訓(xùn)練策略的效果，在4.3.1中有進(jìn)行消融實(shí)驗(yàn)，如上圖所示，直觀地，從這個(gè)表其實(shí)可以發(fā)現(xiàn)幾個(gè)信息：

ID'（也就是交互式蒸餾）具有一定的優(yōu)勢(shì)，尤其是在Finetuning階段，但是在Post-train中的收益似乎不那么明顯。

DualReg似乎是有些效果的，但是不清楚為什么要把CB（RocketQA中的提到的跨batch負(fù)采樣策略）也放一起，就感覺(jué)這個(gè)東西和本文的創(chuàng)新點(diǎn)沒(méi)啥關(guān)系，讓我們并不知道是CB的貢獻(xiàn)，還是DualReg的貢獻(xiàn)了。

但是感覺(jué)做的有一些馬虎，主要是為了證明這個(gè)ID'（也就是交互式整流）的方案比較厲害，但是從這個(gè)表來(lái)看收效沒(méi)有想象的大額，不過(guò)有一說(shuō)一，前面的繼續(xù)預(yù)訓(xùn)練還是非常值得我們學(xué)習(xí)和嘗試的，這點(diǎn)我在（前沿重器[26] | 預(yù)訓(xùn)練模型的領(lǐng)域適配問(wèn)題）中有提到過(guò)。

小結(jié)

總結(jié)下來(lái)，這篇文章最大的特點(diǎn)是把“通過(guò)學(xué)習(xí)交互式，來(lái)讓表征式效果進(jìn)一步提升”這個(gè)思路發(fā)揮很極致，讓我們知道了這個(gè)方案的潛力，這個(gè)是有些實(shí)驗(yàn)和落地價(jià)值的。

除此之外，這篇文章在初讀的時(shí)候，其實(shí)發(fā)現(xiàn)了不少新的概念（可能也是我有些匱乏吧），所以挖了不少坑，論文里的下面這張表其實(shí)都值得我好好讀一下，當(dāng)然也包括introduction里面的。

對(duì)比實(shí)驗(yàn)

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴