91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

預(yù)訓(xùn)練模型在搜索中使用的思路和方案

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:CS的陋室 ? 作者:CS的陋室 ? 2022-09-19 11:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)然了,和往常的文章一樣,我不會(huì)復(fù)述這一篇文章,而是聊聊里面的一些關(guān)鍵點(diǎn)和一些有意思的內(nèi)容,拿出來(lái)和大家討論一下。

搜索的常規(guī)結(jié)構(gòu)

有關(guān)搜索的結(jié)構(gòu),其實(shí)在很多之前的文章都已經(jīng)有聊過(guò),這里再借這篇文章聊聊吧,直接上圖:

3c892b38-373d-11ed-ba43-dac502259ad0.jpg

先從左邊開(kāi)始,是用戶視角的處理流程,用戶輸入檢索query后,需要經(jīng)過(guò)一系列的預(yù)處理和解析,包括以前常說(shuō)的意圖識(shí)別,在這個(gè)圖里都算入parser中,經(jīng)過(guò)預(yù)處理后,就會(huì)進(jìn)入常規(guī)的信息檢索流程,現(xiàn)在的主流就是“檢索+召回”的模式,即先從庫(kù)里面找出一整批比較接近的,然后經(jīng)過(guò)一定的排序模型對(duì)這些結(jié)果進(jìn)行排序,最終給出搜索結(jié)果。

而從右邊開(kāi)始,是各種文檔,或者說(shuō)物料的輸入到入庫(kù)的流程,Parser和Encoder就是預(yù)處理和編碼的流程,然后就可以入庫(kù)了,這里用“index”就是一個(gè)索引的過(guò)程,索引本身是一個(gè)協(xié)助檢索加速的過(guò)程,有了索引能讓檢索過(guò)程變得足夠快,畢竟用戶視角的檢索速度不能因?yàn)閹?kù)很大而被降低,這其實(shí)是搜索里面非常重要的問(wèn)題了,因和本文無(wú)關(guān)這個(gè)點(diǎn)到為止。

因此,其實(shí)要算法工作的地方,其實(shí)就這幾個(gè):

Query Parser,即query預(yù)處理和理解部分,需要通過(guò)算法的方式對(duì)query進(jìn)行解析。

Retrieval,即檢索部分,從庫(kù)里面粗篩出可能對(duì)的結(jié)果的部分。

Rerank,即排序部分,這里涉及的就是排出最優(yōu)的結(jié)果有限放到用戶面前的過(guò)程。

Doc Parser&Encoder,即對(duì)文檔處理的部分,什么樣的解析和表征能更好地入庫(kù)檢索的同時(shí),更快更準(zhǔn)地被Retrieval找到。

Retrieval

所謂的檢索,其實(shí)就是輸入用戶query,然后從庫(kù)里面找到和query最相關(guān)的TOPN的結(jié)果的這個(gè)過(guò)程,而一般地,主要是3種情況,按照論文的說(shuō)法:

sparse,稀疏型,其實(shí)就是經(jīng)典的全匹配的形式,我理解是因?yàn)閛nehot化后其實(shí)就是稀疏的所以這么說(shuō)吧。

dense,稠密型,說(shuō)白了就是我們常說(shuō)的向量表征后用ANN的方式來(lái)進(jìn)行查詢的方法。

綜合型,就是綜合上述兩者來(lái)進(jìn)行的操作。

首先聊聊sparse型吧,這應(yīng)該是前一個(gè)階段比較流行的方案了,但是現(xiàn)在仍方興未艾。在預(yù)訓(xùn)練的使用上,則更聚焦在稀疏型特征的更精準(zhǔn)地抽取上,例如上游意圖識(shí)別的處理(這個(gè)其實(shí)放在了后續(xù)的章節(jié)里),或者是在詞權(quán)重問(wèn)題上的進(jìn)一步優(yōu)化(term-weighting),這些其實(shí)在比較老的階段已經(jīng)有一些比較優(yōu)秀的方案,但是換上預(yù)訓(xùn)練模型后,確實(shí)有不小的提升,同時(shí)從系統(tǒng)層面,系統(tǒng)的迭代升級(jí),直接更換模型會(huì)比較方便,風(fēng)險(xiǎn)低而且可控性高,確實(shí)是大家更容易想到的手段了。

而dense型,對(duì)應(yīng)的就是我們說(shuō)的語(yǔ)義向量召回,別以為只是把表征模塊換成預(yù)訓(xùn)練模型那么簡(jiǎn)單(如SBERT),其實(shí)還有很多花樣,我來(lái)列舉一下:

單向量表征和多向量表征,即在計(jì)算相似度的時(shí)候是用一個(gè)向量還是多個(gè)向量,這種用多個(gè)向量的其實(shí)并不少見(jiàn),至少在論文里。

專門為了向量檢索而設(shè)計(jì)的預(yù)訓(xùn)練模型和任務(wù),也可以說(shuō)是Further pretrain或者是fine-tuning的一種思路。

難負(fù)例的挖掘和使用的探索,這方面在排序階段也有提及,屬于語(yǔ)義相似度上的老問(wèn)題了。

而綜合型,則是一些統(tǒng)一考慮兩種類型特征,一起使用的方案,本質(zhì)上研究的是這兩種信息的融合方式,同時(shí)也是在探索兩者的分工和地位,例如有的研究是讓預(yù)訓(xùn)練模型擬合BM25后的殘差,有的研究這是考慮復(fù)雜的融合。

Rerank

排序也是搜索中非常重要的部分,要最終的結(jié)果足夠準(zhǔn),排序肯定是更為關(guān)鍵的一環(huán),甚至更為極端的,很多搜索在架構(gòu)上,設(shè)計(jì)的排序模塊是多層多元的,和推薦類似,所以更多大家會(huì)叫reranker,這個(gè)點(diǎn)到為止,回到排序本身,而常見(jiàn)的,模型在排序側(cè),尤其是預(yù)訓(xùn)練模型的使用上,會(huì)有兩種形式:

判別式,即直接用類似分類的方式,直接給出query對(duì)各個(gè)doc的打分,選下圖種中間的那個(gè)形式。

生成式,假設(shè)文檔和query中間存在一個(gè)生成的過(guò)程,通過(guò)刻畫文檔->query或相反的過(guò)程來(lái)判斷兩者的相似關(guān)系。

3c9c9efc-373d-11ed-ba43-dac502259ad0.jpg

判別式排序

先聊聊前者,這個(gè)大家也比較熟悉,說(shuō)白了就是直接通過(guò)分類的方式來(lái)計(jì)算得分,按照論文的總結(jié),應(yīng)該就是這幾個(gè)形式,在NLP里,更多其實(shí)可以理解為交互式的語(yǔ)義相似度計(jì)算吧,但是由于一對(duì)多的存在,所以演化了更多的形式:

3cb0d3f4-373d-11ed-ba43-dac502259ad0.jpg

而與常規(guī)的NLP不同的是,搜索還需要面臨這些問(wèn)題:

長(zhǎng)文本問(wèn)題,雖然query大都還比較短,但是doc很少是短文本了,因此有了一些類似BERT-firstP、BERT-sumP之類選擇最優(yōu)段落等的一些方案和PARADE等的一些用來(lái)聚合全文信息再來(lái)計(jì)算的方案。

性能問(wèn)題。多個(gè)文檔和query都要計(jì)算匹配度,性能扛不住,所以有了一些類似延遲交互、蒸餾、動(dòng)態(tài)建模的方案。

生成式排序

然后聊聊生成式排序模型,思路上就是這個(gè)形式:

3cc41ce8-373d-11ed-ba43-dac502259ad0.png

前者是把query和doc都輸入文本,生成True/False的結(jié)果,個(gè)人感覺(jué)其實(shí)和上面的判別型多少有些類似,只是解釋的視角不同吧,后者則是借助Doc生成Query的方式,隨后用條件概率來(lái)判斷兩者的相關(guān)性。

混合型排序

混合型排序則是混合了上述生成式和判別式方案的特點(diǎn),例如通過(guò)多任務(wù)學(xué)習(xí)等的方案進(jìn)行,這里不贅述了。

其他檢索相關(guān)的組件

檢索本就是一個(gè)系統(tǒng),內(nèi)部有大量的組件,而因此,預(yù)訓(xùn)練模型也不見(jiàn)得只用在上面的召回和排序階段,例如query理解,這塊我自己是已經(jīng)用了不少了,例如分類、實(shí)體抽取等,當(dāng)然還有論文里提到的query拓展改寫,和其他的特征,這些是query側(cè)的,而物料側(cè),則有很多類似文本摘要之類的方案,論文里面也有不少,大家可以看看拓展下思路。

檢索專用預(yù)訓(xùn)練方案

要讓預(yù)訓(xùn)練方案在特定場(chǎng)景表現(xiàn)更好,肯定離不開(kāi)對(duì)這個(gè)場(chǎng)景適配的一些研究,甚至有一些針對(duì)對(duì)話場(chǎng)景的預(yù)訓(xùn)練技術(shù),首先是預(yù)訓(xùn)練任務(wù)的設(shè)計(jì),讓預(yù)訓(xùn)練模型能更好適配檢索任務(wù),例如ICT從論文中隨機(jī)采樣一句話來(lái)和剩余句子進(jìn)行匹配,這些思路的核心其實(shí)就是強(qiáng)調(diào)預(yù)訓(xùn)練模型對(duì)query-doc這種信息匹配類任務(wù)的理解能力;另一方面,就是一些比較大膽的,對(duì)Transformer結(jié)構(gòu)的調(diào)整,例如在淺層先隔離q和d之間的關(guān)系,后續(xù)再來(lái)聯(lián)合的預(yù)訓(xùn)練結(jié)構(gòu),算是一種思路的拓展吧。

自己的一些其他的想法

全文給我的收獲其實(shí)挺大的,能在論文里看到很多有關(guān)預(yù)訓(xùn)練模型在搜索中使用的思路和方案,這些也打開(kāi)了我的思路。但是感覺(jué)還有不少問(wèn)題可能還有待進(jìn)一步的探索和研究吧,也是自己比較關(guān)注和研究的,當(dāng)然這些也比較實(shí)踐化,科研視角可能很難關(guān)心到。

目前的論文方案似乎都是把整個(gè)檢索系統(tǒng)割裂來(lái)看的,即任務(wù)拆解后,逐一優(yōu)化實(shí)現(xiàn)的,小到term-weight問(wèn)題,達(dá)到召回和排序的問(wèn)題,但是對(duì)于一個(gè)系統(tǒng),將預(yù)訓(xùn)練模型集成到系統(tǒng)中的時(shí)候,有很多問(wèn)題需要考慮,我舉幾個(gè)例子:

一個(gè)系統(tǒng)這么多任務(wù),每個(gè)都布一個(gè)預(yù)訓(xùn)練模型,系統(tǒng)能支撐嗎?這時(shí)候的性能優(yōu)化,就不只是優(yōu)化一個(gè)算法一個(gè)任務(wù)這么簡(jiǎn)單了,而是一個(gè)系統(tǒng)問(wèn)題。

什么位置上預(yù)訓(xùn)練模型對(duì)端到端結(jié)果收益會(huì)更高。

上游計(jì)算預(yù)訓(xùn)練的中間信息,有沒(méi)有可能用到下游,產(chǎn)生新的提升,即有沒(méi)有可能“一肉多吃”。(這個(gè)其實(shí)論文里有提,具體論文也有看到,感覺(jué)是個(gè)方向吧)

再者,表面上看這些任務(wù)是對(duì)應(yīng)到了檢索系統(tǒng),但是多少還是沒(méi)有離開(kāi)預(yù)訓(xùn)練所固有的NLP場(chǎng)景,有些搜索的特定特征或者這種信息,并沒(méi)有考慮引入到模型中,如有點(diǎn)率、點(diǎn)擊量等,都沒(méi)有考慮到融合預(yù)訓(xùn)練模型中,說(shuō)白了,其實(shí)還是只是考慮了文檔和Query之間語(yǔ)義的相關(guān)性而已,沒(méi)有考慮更多更復(fù)雜的信息匹配,而這些信息其實(shí)在現(xiàn)實(shí)應(yīng)用中也必不可少,例如“最新消息”之類的query,是和時(shí)效性有關(guān)的,本身和語(yǔ)義關(guān)系真不大,這個(gè)例子可能有些極端了,但是在一個(gè)相對(duì)綜合的系統(tǒng)中,確實(shí)是個(gè)不能忽略的重要問(wèn)題。

小結(jié)

當(dāng)然了,文章中還有很多內(nèi)容我沒(méi)有提到,例如現(xiàn)有數(shù)據(jù)集和對(duì)應(yīng)的sota,大家可以根據(jù)自己的興趣在論文里看,另外對(duì)于自己感興趣的部分,作者都有列出出處,大家可以進(jìn)一步深入閱讀,很久前就和大家說(shuō)過(guò)讀綜述的好處就是能快速理解一個(gè)方向比較全面的研究現(xiàn)狀,也能把握住一些研究熱點(diǎn)和前沿,所以非常建議大家精讀,我花了一個(gè)中秋節(jié)假期的事件來(lái)看,感覺(jué)收獲不小,希望也對(duì)大家有用吧。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    1039

    瀏覽量

    57002
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23285
  • 訓(xùn)練模型
    +關(guān)注

    關(guān)注

    1

    文章

    37

    瀏覽量

    4073

原文標(biāo)題:綜述 | 預(yù)訓(xùn)練模型在信息檢索中的應(yīng)用

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于不同量級(jí)預(yù)訓(xùn)練數(shù)據(jù)的RoBERTa模型分析

    NLP領(lǐng)域的研究目前由像RoBERTa等經(jīng)過(guò)數(shù)十億個(gè)字符的語(yǔ)料經(jīng)過(guò)預(yù)訓(xùn)練模型匯主導(dǎo)。那么對(duì)于一個(gè)預(yù)訓(xùn)練
    發(fā)表于 03-03 11:21 ?2813次閱讀

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型預(yù)訓(xùn)練

    增長(zhǎng)。DeepMind相關(guān)論文中指出,模型大小和訓(xùn)練Token數(shù)應(yīng)以相似速率增長(zhǎng),以確保最佳性能。因此,構(gòu)建與模型規(guī)模相匹配的預(yù)
    發(fā)表于 05-07 17:10

    為什么要使用預(yù)訓(xùn)練模型?8種優(yōu)秀預(yù)訓(xùn)練模型大盤點(diǎn)

    正如我們本文中所述,ULMFiT使用新穎的NLP技術(shù)取得了令人矚目的成果。該方法對(duì)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行微調(diào),將其WikiText-103數(shù)
    的頭像 發(fā)表于 04-04 11:26 ?2.5w次閱讀
    為什么要使用<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>?8種優(yōu)秀<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>大盤點(diǎn)

    小米預(yù)訓(xùn)練模型的探索與優(yōu)化

    導(dǎo)讀:預(yù)訓(xùn)練模型NLP大放異彩,并開(kāi)啟了預(yù)訓(xùn)練-微調(diào)的NLP范式時(shí)代。由于工業(yè)領(lǐng)域相關(guān)業(yè)務(wù)的復(fù)
    的頭像 發(fā)表于 12-31 10:17 ?3848次閱讀
    小米<b class='flag-5'>在</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>的探索與優(yōu)化

    2021 OPPO開(kāi)發(fā)者大會(huì):NLP預(yù)訓(xùn)練模型

    2021 OPPO開(kāi)發(fā)者大會(huì):NLP預(yù)訓(xùn)練模型 2021 OPPO開(kāi)發(fā)者大會(huì)上介紹了融合知識(shí)的NLP預(yù)訓(xùn)練
    的頭像 發(fā)表于 10-27 14:18 ?2183次閱讀
    2021 OPPO開(kāi)發(fā)者大會(huì):NLP<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>大<b class='flag-5'>模型</b>

    如何實(shí)現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

    NLP中,預(yù)訓(xùn)練模型Finetune是一種非常常見(jiàn)的解決問(wèn)題的范式。利用在海量文本上預(yù)訓(xùn)練得到的Bert、GPT等
    的頭像 發(fā)表于 03-21 15:33 ?2959次閱讀

    Multilingual多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型的套路

    FacebookCrosslingual language model pretraining(NIPS 2019)一文中提出XLM預(yù)訓(xùn)練多語(yǔ)言模型,整體
    的頭像 發(fā)表于 05-05 15:23 ?4074次閱讀

    一種基于亂序語(yǔ)言模型預(yù)訓(xùn)練模型-PERT

    由于亂序語(yǔ)言模型不使用[MASK]標(biāo)記,減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap,并由于預(yù)測(cè)空間大小為輸入序列長(zhǎng)度,使得計(jì)算效率高于掩碼語(yǔ)言模型。PERT
    的頭像 發(fā)表于 05-10 15:01 ?2339次閱讀

    如何更高效地使用預(yù)訓(xùn)練語(yǔ)言模型

    基本的假設(shè):預(yù)訓(xùn)練模型不同下游任務(wù)上學(xué)習(xí)的過(guò)程,可以被重新參數(shù)化(reparameterized)為同一個(gè)低維本征子空間上的優(yōu)化過(guò)程。
    的頭像 發(fā)表于 07-08 11:28 ?1923次閱讀

    利用視覺(jué)語(yǔ)言模型對(duì)檢測(cè)器進(jìn)行預(yù)訓(xùn)練

    預(yù)訓(xùn)練通常被用于自然語(yǔ)言處理以及計(jì)算機(jī)視覺(jué)領(lǐng)域,以增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力,達(dá)到加速訓(xùn)練和提高模型泛化性能的目的。該方法亦可以用于場(chǎng)景文本檢測(cè)當(dāng)中,如最早的使用ImageNet
    的頭像 發(fā)表于 08-08 15:33 ?2242次閱讀

    預(yù)訓(xùn)練數(shù)據(jù)大小對(duì)于預(yù)訓(xùn)練模型的影響

    BERT類模型的工作模式簡(jiǎn)單,但取得的效果也是極佳的,其各項(xiàng)任務(wù)上的良好表現(xiàn)主要得益于其大量無(wú)監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語(yǔ)言學(xué)的特征角度來(lái)衡量一個(gè)預(yù)
    的頭像 發(fā)表于 03-03 11:20 ?2467次閱讀

    什么是預(yù)訓(xùn)練 AI 模型?

    該向孩子展示這種生物的圖像并描述其獨(dú)有特征。 那么,如果要教一臺(tái)人工智能(AI)機(jī)器什么是獨(dú)角獸,該從什么地方做起呢? 預(yù)訓(xùn)練 AI 模型提供了解決方案。
    的頭像 發(fā)表于 04-04 01:45 ?2472次閱讀

    什么是預(yù)訓(xùn)練AI模型?

    預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用,
    的頭像 發(fā)表于 05-25 17:10 ?1959次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,尤其是自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)等領(lǐng)域中得到了廣泛應(yīng)用。
    的頭像 發(fā)表于 07-03 18:20 ?5766次閱讀

    大語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?1725次閱讀