引言
近年來,以深度學(xué)習(xí)為代表的表示學(xué)習(xí)技術(shù)在語音識別、圖像分析和自然語言處理(NLP)領(lǐng)域獲得了廣泛關(guān)注。表示學(xué)習(xí)旨在將研究對象的語義信息表示為低維稠密實(shí)值向量。表示學(xué)習(xí)得到的低維向量表示是一種分布式表示,孤立地看向量中的每一維,都沒有明確對應(yīng)的含義;而綜合各維形成一個(gè)向量,則能夠表示對象的語義信息。
與更簡單的獨(dú)熱(one-hot)表示方法相比,表示學(xué)習(xí)的向量維度較低,有助于提高計(jì)算效率,同時(shí)能夠充分利用對象間的語義信息,從而有效緩解數(shù)據(jù)稀疏問題。由于表示學(xué)習(xí)的這些優(yōu)點(diǎn),最近出現(xiàn)了大量關(guān)于單詞、短語、實(shí)體、句子、文檔和社會網(wǎng)絡(luò)的表示學(xué)習(xí)研究。
1
自然語言的詞表示方法
在NLP 中,文本表示是一個(gè)極為關(guān)鍵的問題。最初,詞袋模型是最常用的文本表示模型之一。隨著深度神經(jīng)網(wǎng)絡(luò)的興起,人們提出了一種新的獲得詞向量的詞嵌入(Word Embedding)方法[1-3],以解決詞匯表過大帶來的“維度爆炸”問題。詞和句子的嵌入已成為所有基于深度學(xué)習(xí)的NLP系統(tǒng)的重要組成部分,它們在固定長度的稠密向量中編碼單詞和句子,從而大幅度提高神經(jīng)網(wǎng)絡(luò)處理文本數(shù)據(jù)的能力。詞向量的獲取方式可以大體分為基于統(tǒng)計(jì)的方法(例如基于共現(xiàn)矩陣、SVD)和基于語言模型[4-5] 的方法兩類。2013 年,Google 團(tuán)隊(duì)發(fā)表了基于語言模型獲取詞向量的word2vec工具[6]。它的核心思想是通過詞的上下文得到詞的向量化表示,包括CBOW(通過附近詞預(yù)測中心詞)和Skip-gram(通過中心詞預(yù)測附近詞)兩種方法,以及負(fù)采樣和層次softmax 兩種近似訓(xùn)練法。word2vec 的詞向量可以較好地表達(dá)不同詞之間的相似和類比關(guān)系,自提出后被廣泛應(yīng)用在NLP任務(wù)中。進(jìn)一步地,由于word2vec 的詞向量是固定不變的,不能有效地解決多義詞的問題,產(chǎn)生了根據(jù)上下文隨時(shí)變化詞向量的ELMO 模型[7]。該模型從深層的雙向語言模型的內(nèi)部狀態(tài)學(xué)習(xí)得到詞的表示,能夠處理單詞用法中的復(fù)雜特性,以及這些用法在不同的語言上下文中的變化,從而解決了多義詞的問題。
2
自然語言的結(jié)構(gòu)表示方法
在獲取句子或文檔的語義表示時(shí),一段話的語義由其各組成部分的語義,以及它們之間的組合方法所確定[8]。由此,一些工作開始嘗試根據(jù)輸入的結(jié)構(gòu)設(shè)計(jì)模型的結(jié)構(gòu)。比如卷積神經(jīng)網(wǎng)絡(luò)(CNN)以n-gram作為基本單位建立句子表示[9-10]。而遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network) 則根據(jù)輸入的樹結(jié)構(gòu)構(gòu)建句子的表示[11-12]。此外,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及各種改進(jìn)(如長短時(shí)記憶網(wǎng)絡(luò)(LSTM))被證明是有效的句子級別表示方法[13]。在此基礎(chǔ)上,一些更為優(yōu)越的結(jié)構(gòu)增強(qiáng)型LSTM 和之前模型的各種組合的方法也在之后被提出。事實(shí)上,LSTM 引入一個(gè)近似線性依賴的記憶單元來存儲遠(yuǎn)距離的信息,以解決簡單RNN 的長期依賴問題。記憶單元的存儲能力和其大小有關(guān),增加記憶單元的大小將導(dǎo)致網(wǎng)絡(luò)參數(shù)的增加。針對這種情況,產(chǎn)生了注意力機(jī)制和外部記憶的改進(jìn)方法。其中注意力機(jī)制[14] 是近年來在NLP 任務(wù)中被廣泛應(yīng)用的一種十分有效的技術(shù),在諸多領(lǐng)域都展示出了其優(yōu)越性。進(jìn)一步地,產(chǎn)生了一種只基于注意力機(jī)制對序列進(jìn)行表示的Transformer 結(jié)構(gòu)[15]。它摒棄了固有的定式,沒有使用任何CNN 或者RNN 的結(jié)構(gòu)。Transformer 可以綜合考慮句子兩個(gè)方向的信息,而且有很好的并行性質(zhì),可以大大減少訓(xùn)練時(shí)間。
3
預(yù)訓(xùn)練在NLP 中的應(yīng)用
值得一提的是,很多自然語言特征表示方法及詞表示方法都采用一種兩階段的訓(xùn)練方法,即首先在無標(biāo)記數(shù)據(jù)上通過預(yù)訓(xùn)練學(xué)習(xí)特征或者詞的表示;再以這些表示作為特征,在標(biāo)記數(shù)據(jù)上進(jìn)行監(jiān)督訓(xùn)練。前文所提到的word2vec 和ELMO 方法就經(jīng)常被用于詞向量的預(yù)訓(xùn)練。隨著深度學(xué)習(xí)在表示學(xué)習(xí)領(lǐng)域成為主流方法,以及Transformer等序列表示模型的發(fā)展,自然語言的表示學(xué)習(xí)從特征和詞的粒度被推廣到了更大的粒度,如短語和句子。這些深度學(xué)習(xí)模型也同樣受益于這種兩階段的訓(xùn)練方法。在ELMO 之后,新的語言表征預(yù)訓(xùn)練模型GPT 使用Transformer 來編碼[16], 克服了ELMO 使用LSTM 作為語言模型而帶來的并行計(jì)算能力差的缺點(diǎn)。而BERT 模型在采用Transformer 進(jìn)行編碼的同時(shí)雙向綜合地考慮上下文特征來對詞進(jìn)行預(yù)測[17]。與word2vec 和ELMO 不同,GPT 和BERT 在進(jìn)行第一階段的預(yù)訓(xùn)練之后只需要根據(jù)第二階段的任務(wù)對模型結(jié)構(gòu)進(jìn)行改造,精加工(fine-tuning)模型進(jìn)行監(jiān)督訓(xùn)練,使之適用于具體的任務(wù)。BERT 具有很強(qiáng)的普適性,幾乎所有 NLP 任務(wù)都可以套用這種兩階段解決思路,并且獲得效果的明顯提升。
4
其他NLP 表示學(xué)習(xí)方法與應(yīng)用
除了上文中通用的NLP 表示學(xué)習(xí)方法,自然語言仍存在很多性質(zhì)需要進(jìn)行深入研究。例如,漢語具有部首共享和漢字共享的特殊性質(zhì),即幾個(gè)漢字共同的部首通常是它們之間的核心語義關(guān)聯(lián);相應(yīng)地,一個(gè)漢語詞的意思可以通過其包含的漢字來表達(dá)。如圖1所示,基于部首感知和注意力機(jī)制的四粒度模型RAFG[18] 對這兩種性質(zhì)加以挖掘和利用,并將這些特征系統(tǒng)地融入到中文文本分類的任務(wù)中,從而實(shí)現(xiàn)對中文文本更為準(zhǔn)確的語義表示。

圖1:RAFG 獲得中文文本四個(gè)粒度特征的說明
此外,語言所處的環(huán)境信息(如圖像)會對語言的語義產(chǎn)生影響。進(jìn)一步地,圖像所包含的信息可能與句子語義的不同的粒度表示有關(guān)聯(lián)。為此,如圖2所示,圖像增強(qiáng)的層次化句子語義表示網(wǎng)絡(luò)IEMLRN[19]利用圖像信息從不同粒度來增強(qiáng)句子的語義理解與表示,實(shí)現(xiàn)了更為準(zhǔn)確的句子語義表示,以及句子對的語義關(guān)系分類。

圖2:圖像增強(qiáng)的層次化句子語義表示網(wǎng)絡(luò)IEMLRN結(jié)構(gòu)
最后,語義表示技術(shù)的發(fā)展使得多媒體信息的有效建模與語義表示成為可能,進(jìn)而為推薦、檢索等實(shí)際應(yīng)用場景提供支撐。近年來,多媒體共享平臺取得了突飛猛進(jìn)的發(fā)展。其中一種叫做“彈幕”的視頻實(shí)時(shí)評論愈發(fā)流行。為了有效理解視頻片段的內(nèi)容,如圖3 所示,基于深度神經(jīng)網(wǎng)絡(luò)的彈幕語義表征方法[20] 通過利用彈幕與視頻情節(jié)之間的關(guān)聯(lián)性,對彈幕進(jìn)行表示學(xué)習(xí),實(shí)現(xiàn)了對視頻片段的標(biāo)注。這種方法突破了常規(guī)視頻推薦/ 檢索系統(tǒng)只關(guān)注整段視頻的局限性,可以滿足細(xì)粒度的要求。
圖3:基于彈幕語義表征的視頻片段標(biāo)注框架會對語言的語義產(chǎn)生影響
5
結(jié)束語
自然語言的語義表示學(xué)習(xí)方法的發(fā)展為各種NLP 任務(wù)帶來了更多的可能性。新型網(wǎng)絡(luò)結(jié)構(gòu)的出現(xiàn)使我們可以得到更加有效的語義表征。而兩階段的預(yù)訓(xùn)練方法可以把大量的無標(biāo)注文本利用起來,對大量的通用語言學(xué)知識進(jìn)行抽取與表示,從而提升NLP 下游任務(wù)的效果。
自然語言的語義表示學(xué)習(xí)方法取得了令人矚目的成就,但在很多方面都仍值得繼續(xù)研究。無論是更強(qiáng)的特征抽取器還是引入大量數(shù)據(jù)中包含的語言學(xué)知識,對更加精確的語義表示都有著重要作用。盡管現(xiàn)有的很多NLP 任務(wù)還無法達(dá)到人類的水平, 但相信對自然語言語義表征的不斷研究、新技術(shù)的不斷出現(xiàn),會創(chuàng)造出更豐富的成果。
-
語音識別
+關(guān)注
關(guān)注
39文章
1812瀏覽量
116040 -
圖像分析
+關(guān)注
關(guān)注
0文章
82瀏覽量
19228 -
自然語言
+關(guān)注
關(guān)注
1文章
292瀏覽量
13986
原文標(biāo)題:學(xué)會原創(chuàng) | 自然語言的語義表示學(xué)習(xí)方法與應(yīng)用
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學(xué)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
python自然語言
NLPIR語義分析是對自然語言處理的完美理解
自然語言處理怎么最快入門?
語義理解和研究資源是自然語言處理的兩大難題
什么是自然語言處理_自然語言處理常用方法舉例說明
自然語言的語義表示學(xué)習(xí)方法與應(yīng)用
評論