三级黄色A区三级中文字幕电影,国产成人无码嫩妇在线观看

在2020年初開始的新冠病毒蔓延影響下，NLPCC 2020采取線上+線下的會議方式，線上線下共繳費(fèi)注冊496人，其中現(xiàn)場參會總?cè)藬?shù)達(dá)372人，線上參會人數(shù)124人，另有15個贊助單位參展。匯聚了眾多國內(nèi)外NLP領(lǐng)域的知名學(xué)者。本次會議總投稿數(shù)是445篇，會議有效投稿404篇。其中，主會有效總投稿377篇，Workshop有效投稿27篇。在主會377篇有效投稿中，英文論文315篇，中文論文62篇；接收Oral論文83篇，其中英文論文70篇，中文論文13篇，錄用率為22%；接收Poster 論文30篇。Workshop共計錄取14篇論文。在本次會議上評選出最佳論文、最佳學(xué)生論文各1篇，并進(jìn)行了頒獎儀式。來自清華大學(xué)朱小燕、黃民烈團(tuán)隊(duì)的王義達(dá)作為一作發(fā)表的《A Large-Scale Chinese Short-Text Conversation Dataset》獲得了最佳學(xué)生論文，以下是王義達(dá)本人對獲獎?wù)撐牡挠H自解讀。

基于Transformer的大規(guī)模預(yù)訓(xùn)練語言模型極大地促進(jìn)了開放領(lǐng)域?qū)υ挼难芯窟M(jìn)展。然而目前這一技術(shù)在中文對話領(lǐng)域并未被廣泛應(yīng)用，主要原因在于目前缺乏大規(guī)模高質(zhì)量的中文對話開源數(shù)據(jù)。為了推動中文對話領(lǐng)域的研究，彌補(bǔ)中文對話語料不足這一問題，我們發(fā)布了一個包含1200萬對話的大規(guī)模中文對話數(shù)據(jù)集LCCC，并開源了在LCCC上預(yù)訓(xùn)練的大規(guī)模中文對話生成模型CDial-GPT。開源地址：https://github.com/thu-coai/CDial-GPT 1

LCCC數(shù)據(jù)集的構(gòu)建

LCCC（Large-scale Cleaned Chinese Conversation）數(shù)據(jù)集有LCCC-base與LCCC-large兩個版本，其中LCCC-base和LCCC-large中各包含6.8M和12M對話。這些數(shù)據(jù)是從79M原始對話數(shù)據(jù)中經(jīng)過嚴(yán)格清洗得到的，也是目前所開源的規(guī)模最大、清洗最嚴(yán)格的中文對話數(shù)據(jù)集。

表1. 被過濾掉的噪音數(shù)據(jù) 開放領(lǐng)域?qū)υ挃?shù)據(jù)的構(gòu)建通常有三種方式：1、抽取劇本對話；2、人工眾包構(gòu)建對話；3、爬取社交媒體上用戶的交流記錄。使用第一種方式構(gòu)建的對話在內(nèi)容上依賴于特定劇情和場景，與日常對話有較大差異。使用第二種方式構(gòu)建的對話質(zhì)量最高，但是由于人力成本過高，無法使用這一方式構(gòu)建大規(guī)模數(shù)據(jù)集。使用第三種方式可以較為廉價地獲取大規(guī)模對話數(shù)據(jù)，因此LCCC數(shù)據(jù)集中的原始數(shù)據(jù)主要使用第三種方式收集。我們同時注意到，來自社交媒體的對話數(shù)據(jù)中存在各種各樣的噪音（表1），為了保證LCCC中對話數(shù)據(jù)的質(zhì)量，我們設(shè)計了如下數(shù)據(jù)獲取和清洗策略：

1. 數(shù)據(jù)獲取我們的數(shù)據(jù)獲取流程分為兩個階段。在第一個階段，我們挑選了微博上由專業(yè)媒體團(tuán)隊(duì)運(yùn)營的新聞媒體賬號，然后收集了一批在這些新聞媒體下留言互動的活躍用戶。在第二個階段中，我們收集了這些活躍用戶微博下的留言互動，并將其作為我們的原始數(shù)據(jù)。微博下的留言回復(fù)一般以一個樹形結(jié)構(gòu)展開，我們將這一樹形回復(fù)結(jié)構(gòu)中每一條從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑作為一個完整對話，最終共收集到了79M對話數(shù)據(jù)。

2. 數(shù)據(jù)清洗為了保證數(shù)據(jù)質(zhì)量，我們對收集到的原始對話數(shù)據(jù)進(jìn)行了兩個階段的清洗。第一階段的清洗主要基于手工規(guī)則。這一階段的主要目的是為了過濾掉對話數(shù)據(jù)中的明顯噪聲，如臟話、特殊符號、病句、復(fù)讀機(jī)句式、廣告、違法暴力信息等。在這一階段中，我們花費(fèi)了數(shù)周時間使用人工排查的方式優(yōu)化規(guī)則。

第二階段的清洗主要基于分類器過濾。在這一階段中，我們基于BERT訓(xùn)練了兩個文本分類器，第一個分類器主要用于甄別那些無法通過規(guī)則檢測的噪音，如：1、語義模糊、語法錯亂或有嚴(yán)重拼寫錯誤的語句；2、時效性太強(qiáng)的對話；3、與上下文語義不相關(guān)的回復(fù)。第二個分類器主要用于甄別那些需要依賴額外上下文信息，如圖片或視頻等，才能理解的對話。這兩個分類器均使用人工標(biāo)注數(shù)據(jù)訓(xùn)練，我們?yōu)槠錁?biāo)注了共計11萬對話數(shù)據(jù)，最終的分類器在人工標(biāo)注的測試集上分別達(dá)到了73.76%和77.60%的準(zhǔn)確率。我們通過F1-score選擇閾值來過濾得到高質(zhì)量的對話數(shù)據(jù)。

表2. 數(shù)據(jù)統(tǒng)計信息，左側(cè)為LCCC-base，右側(cè)為LCCC-large 最終我們基于上述原始對話數(shù)據(jù)過濾得到了6.8M高質(zhì)量的對話數(shù)據(jù)LCCC-base。此外，我們還收集了目前已公開的其他對話數(shù)據(jù)，并使用同樣的清洗流程，結(jié)合LCCC-base構(gòu)造了包含12M對話的數(shù)據(jù)集LCCC-large。表2展示了這兩個數(shù)據(jù)集中單輪對話和多輪對話的詳細(xì)統(tǒng)計信息。 2

中文對話預(yù)訓(xùn)練模型CDial-GPT

為促進(jìn)中文對話預(yù)訓(xùn)練模型的發(fā)展，我們基于LCCC數(shù)據(jù)集預(yù)訓(xùn)練了大規(guī)模中文對話生成模型CDial-GPT。該模型的訓(xùn)練過程包含兩個階段，首先，我們在總計5億字符、包含各類題材的小說數(shù)據(jù)上訓(xùn)練得到了一個中文小說GPT預(yù)訓(xùn)練模型，然后在該模型的基礎(chǔ)上，我們使用LCCC中的對話數(shù)據(jù)繼續(xù)對模型進(jìn)行訓(xùn)練，最終得到了中文對話預(yù)訓(xùn)練模型CDial-GPT。

圖1. 輸入編碼示例該模型擁有12層Transformer結(jié)構(gòu)，我們按字分詞，字典大小13088，字向量維度768，最長上下文長度為513。我們沿用TransferTransfo的方式對對話進(jìn)行建模，即把對話歷史拼接為長文本，并使用段分割向量加以區(qū)分。具體來說：我們使用[CLS]字符標(biāo)志文本起始，在段落后使用[SEP]字符表示段落結(jié)束，在段落中對相鄰輪次對話使用[speaker1]、[speaker2]交替分割，并在segment embedding中使用[speaker1]、[speaker2]進(jìn)行編碼。圖1為輸入數(shù)據(jù)示例。 3

模型效果評測

為了評估對話預(yù)訓(xùn)練模型的質(zhì)量，我們在440萬規(guī)模的中文對話數(shù)據(jù)集STC上對其進(jìn)行了評測實(shí)驗(yàn)，并對比了現(xiàn)有的中文對話預(yù)訓(xùn)練模型和一些經(jīng)典的非預(yù)訓(xùn)練對話模型。我們主要通過PPL這一指標(biāo)來反映模型的擬合能力，PPL越低表示模型的擬合能力越強(qiáng)。我們通過基于n-gram重合度的指標(biāo)BLEU和基于Embedding相似度的指標(biāo)Greedy Matching 和Embedding Average來衡量對話回復(fù)與真實(shí)回復(fù)的相關(guān)性，并通過Dist-n指標(biāo)來衡量生成回復(fù)的多樣性。實(shí)驗(yàn)結(jié)果展示在表3中?？梢钥吹轿覀兊哪Ｐ驮诮^大多數(shù)指標(biāo)上達(dá)到了最好的效果。由于自動指標(biāo)無法完全反映生成對話的質(zhì)量，于是我們對各模型生成的對話進(jìn)行了人工評測。

表3. 自動指標(biāo)評估

表4. 人工評價在人工評測中我們主要考慮3個方面：1、語法性，也就是生成語句的流暢性；2、相關(guān)性，即生成語句與對話上文的相關(guān)性；3、信息量，即生成結(jié)果自身含有的信息量。具體來說，不符合語法性或與對話上文不相關(guān)的生成結(jié)果我們給予0分；語句流暢、和對話上文相關(guān)但信息量不足的生成結(jié)果給予1分；語句流暢、和對話上文相關(guān)并且信息量充足的生成結(jié)果給予2分，我們將人工評測結(jié)果展示在表4中。實(shí)驗(yàn)結(jié)果顯示，我們的預(yù)訓(xùn)練模型擁有出色的生成質(zhì)量，可以在生成信息量充足的回復(fù)的同時，保持較高的流暢性與相關(guān)性，優(yōu)于其他基線模型，一些生成例子展示在表5，6中。

表5. 人機(jī)交互示例（左）和模型互相交互示例（右）

表6.在STC微調(diào)的生成結(jié)果示例目前CDial-GPT模型以及LCCC數(shù)據(jù)集都已公開，我們提供了訓(xùn)練以及微調(diào)代碼，可以方便地應(yīng)用于各種數(shù)據(jù)和下游任務(wù)上。

責(zé)任編輯：xj

原文標(biāo)題：一作解讀NLPCC最佳學(xué)生論文：1200萬中文對話數(shù)據(jù)和預(yù)訓(xùn)練模型CDial-GPT

文章出處：【微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴