婷婷五月天激情四射,日批视频在线观看网站,黄色av电影A片裸片

引言

近年來，以深度學(xué)習(xí)為代表的表示學(xué)習(xí)技術(shù)在語音識別、圖像分析和自然語言處理（NLP）領(lǐng)域獲得了廣泛關(guān)注。表示學(xué)習(xí)旨在將研究對象的語義信息表示為低維稠密實(shí)值向量。表示學(xué)習(xí)得到的低維向量表示是一種分布式表示，孤立地看向量中的每一維，都沒有明確對應(yīng)的含義；而綜合各維形成一個(gè)向量，則能夠表示對象的語義信息。

與更簡單的獨(dú)熱（one-hot）表示方法相比，表示學(xué)習(xí)的向量維度較低，有助于提高計(jì)算效率，同時(shí)能夠充分利用對象間的語義信息，從而有效緩解數(shù)據(jù)稀疏問題。由于表示學(xué)習(xí)的這些優(yōu)點(diǎn)，最近出現(xiàn)了大量關(guān)于單詞、短語、實(shí)體、句子、文檔和社會網(wǎng)絡(luò)的表示學(xué)習(xí)研究。

自然語言的詞表示方法

在NLP 中，文本表示是一個(gè)極為關(guān)鍵的問題。最初，詞袋模型是最常用的文本表示模型之一。隨著深度神經(jīng)網(wǎng)絡(luò)的興起，人們提出了一種新的獲得詞向量的詞嵌入（Word Embedding）方法[1-3]，以解決詞匯表過大帶來的“維度爆炸”問題。詞和句子的嵌入已成為所有基于深度學(xué)習(xí)的NLP系統(tǒng)的重要組成部分，它們在固定長度的稠密向量中編碼單詞和句子，從而大幅度提高神經(jīng)網(wǎng)絡(luò)處理文本數(shù)據(jù)的能力。詞向量的獲取方式可以大體分為基于統(tǒng)計(jì)的方法（例如基于共現(xiàn)矩陣、SVD）和基于語言模型[4-5] 的方法兩類。2013 年，Google 團(tuán)隊(duì)發(fā)表了基于語言模型獲取詞向量的word2vec工具[6]。它的核心思想是通過詞的上下文得到詞的向量化表示，包括CBOW（通過附近詞預(yù)測中心詞）和Skip-gram（通過中心詞預(yù)測附近詞）兩種方法，以及負(fù)采樣和層次softmax 兩種近似訓(xùn)練法。word2vec 的詞向量可以較好地表達(dá)不同詞之間的相似和類比關(guān)系，自提出后被廣泛應(yīng)用在NLP任務(wù)中。進(jìn)一步地，由于word2vec 的詞向量是固定不變的，不能有效地解決多義詞的問題，產(chǎn)生了根據(jù)上下文隨時(shí)變化詞向量的ELMO 模型[7]。該模型從深層的雙向語言模型的內(nèi)部狀態(tài)學(xué)習(xí)得到詞的表示，能夠處理單詞用法中的復(fù)雜特性，以及這些用法在不同的語言上下文中的變化，從而解決了多義詞的問題。

自然語言的結(jié)構(gòu)表示方法

在獲取句子或文檔的語義表示時(shí)，一段話的語義由其各組成部分的語義，以及它們之間的組合方法所確定[8]。由此，一些工作開始嘗試根據(jù)輸入的結(jié)構(gòu)設(shè)計(jì)模型的結(jié)構(gòu)。比如卷積神經(jīng)網(wǎng)絡(luò)（CNN）以n-gram作為基本單位建立句子表示[9-10]。而遞歸神經(jīng)網(wǎng)絡(luò)（Recursive Neural Network）則根據(jù)輸入的樹結(jié)構(gòu)構(gòu)建句子的表示[11-12]。此外，循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）及各種改進(jìn)（如長短時(shí)記憶網(wǎng)絡(luò)（LSTM））被證明是有效的句子級別表示方法[13]。在此基礎(chǔ)上，一些更為優(yōu)越的結(jié)構(gòu)增強(qiáng)型LSTM 和之前模型的各種組合的方法也在之后被提出。事實(shí)上，LSTM 引入一個(gè)近似線性依賴的記憶單元來存儲遠(yuǎn)距離的信息，以解決簡單RNN 的長期依賴問題。記憶單元的存儲能力和其大小有關(guān)，增加記憶單元的大小將導(dǎo)致網(wǎng)絡(luò)參數(shù)的增加。針對這種情況，產(chǎn)生了注意力機(jī)制和外部記憶的改進(jìn)方法。其中注意力機(jī)制[14] 是近年來在NLP 任務(wù)中被廣泛應(yīng)用的一種十分有效的技術(shù)，在諸多領(lǐng)域都展示出了其優(yōu)越性。進(jìn)一步地，產(chǎn)生了一種只基于注意力機(jī)制對序列進(jìn)行表示的Transformer 結(jié)構(gòu)[15]。它摒棄了固有的定式，沒有使用任何CNN 或者RNN 的結(jié)構(gòu)。Transformer 可以綜合考慮句子兩個(gè)方向的信息，而且有很好的并行性質(zhì)，可以大大減少訓(xùn)練時(shí)間。

預(yù)訓(xùn)練在NLP 中的應(yīng)用

值得一提的是，很多自然語言特征表示方法及詞表示方法都采用一種兩階段的訓(xùn)練方法，即首先在無標(biāo)記數(shù)據(jù)上通過預(yù)訓(xùn)練學(xué)習(xí)特征或者詞的表示；再以這些表示作為特征，在標(biāo)記數(shù)據(jù)上進(jìn)行監(jiān)督訓(xùn)練。前文所提到的word2vec 和ELMO 方法就經(jīng)常被用于詞向量的預(yù)訓(xùn)練。隨著深度學(xué)習(xí)在表示學(xué)習(xí)領(lǐng)域成為主流方法，以及Transformer等序列表示模型的發(fā)展，自然語言的表示學(xué)習(xí)從特征和詞的粒度被推廣到了更大的粒度，如短語和句子。這些深度學(xué)習(xí)模型也同樣受益于這種兩階段的訓(xùn)練方法。在ELMO 之后，新的語言表征預(yù)訓(xùn)練模型GPT 使用Transformer 來編碼[16]，克服了ELMO 使用LSTM 作為語言模型而帶來的并行計(jì)算能力差的缺點(diǎn)。而BERT 模型在采用Transformer 進(jìn)行編碼的同時(shí)雙向綜合地考慮上下文特征來對詞進(jìn)行預(yù)測[17]。與word2vec 和ELMO 不同，GPT 和BERT 在進(jìn)行第一階段的預(yù)訓(xùn)練之后只需要根據(jù)第二階段的任務(wù)對模型結(jié)構(gòu)進(jìn)行改造，精加工（fine-tuning）模型進(jìn)行監(jiān)督訓(xùn)練，使之適用于具體的任務(wù)。BERT 具有很強(qiáng)的普適性，幾乎所有 NLP 任務(wù)都可以套用這種兩階段解決思路，并且獲得效果的明顯提升。

其他NLP 表示學(xué)習(xí)方法與應(yīng)用

除了上文中通用的NLP 表示學(xué)習(xí)方法，自然語言仍存在很多性質(zhì)需要進(jìn)行深入研究。例如，漢語具有部首共享和漢字共享的特殊性質(zhì)，即幾個(gè)漢字共同的部首通常是它們之間的核心語義關(guān)聯(lián)；相應(yīng)地，一個(gè)漢語詞的意思可以通過其包含的漢字來表達(dá)。如圖1所示，基于部首感知和注意力機(jī)制的四粒度模型RAFG[18] 對這兩種性質(zhì)加以挖掘和利用，并將這些特征系統(tǒng)地融入到中文文本分類的任務(wù)中，從而實(shí)現(xiàn)對中文文本更為準(zhǔn)確的語義表示。

圖1：RAFG 獲得中文文本四個(gè)粒度特征的說明

此外，語言所處的環(huán)境信息（如圖像）會對語言的語義產(chǎn)生影響。進(jìn)一步地，圖像所包含的信息可能與句子語義的不同的粒度表示有關(guān)聯(lián)。為此，如圖2所示，圖像增強(qiáng)的層次化句子語義表示網(wǎng)絡(luò)IEMLRN[19]利用圖像信息從不同粒度來增強(qiáng)句子的語義理解與表示，實(shí)現(xiàn)了更為準(zhǔn)確的句子語義表示，以及句子對的語義關(guān)系分類。

圖2：圖像增強(qiáng)的層次化句子語義表示網(wǎng)絡(luò)IEMLRN結(jié)構(gòu)

最后，語義表示技術(shù)的發(fā)展使得多媒體信息的有效建模與語義表示成為可能，進(jìn)而為推薦、檢索等實(shí)際應(yīng)用場景提供支撐。近年來，多媒體共享平臺取得了突飛猛進(jìn)的發(fā)展。其中一種叫做“彈幕”的視頻實(shí)時(shí)評論愈發(fā)流行。為了有效理解視頻片段的內(nèi)容，如圖3 所示，基于深度神經(jīng)網(wǎng)絡(luò)的彈幕語義表征方法[20] 通過利用彈幕與視頻情節(jié)之間的關(guān)聯(lián)性，對彈幕進(jìn)行表示學(xué)習(xí)，實(shí)現(xiàn)了對視頻片段的標(biāo)注。這種方法突破了常規(guī)視頻推薦/ 檢索系統(tǒng)只關(guān)注整段視頻的局限性，可以滿足細(xì)粒度的要求。

圖3：基于彈幕語義表征的視頻片段標(biāo)注框架會對語言的語義產(chǎn)生影響

結(jié)束語

自然語言的語義表示學(xué)習(xí)方法的發(fā)展為各種NLP 任務(wù)帶來了更多的可能性。新型網(wǎng)絡(luò)結(jié)構(gòu)的出現(xiàn)使我們可以得到更加有效的語義表征。而兩階段的預(yù)訓(xùn)練方法可以把大量的無標(biāo)注文本利用起來，對大量的通用語言學(xué)知識進(jìn)行抽取與表示，從而提升NLP 下游任務(wù)的效果。

自然語言的語義表示學(xué)習(xí)方法取得了令人矚目的成就，但在很多方面都仍值得繼續(xù)研究。無論是更強(qiáng)的特征抽取器還是引入大量數(shù)據(jù)中包含的語言學(xué)知識，對更加精確的語義表示都有著重要作用。盡管現(xiàn)有的很多NLP 任務(wù)還無法達(dá)到人類的水平，但相信對自然語言語義表征的不斷研究、新技術(shù)的不斷出現(xiàn)，會創(chuàng)造出更豐富的成果。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

語音識別

語音識別

+關(guān)注

關(guān)注
39

文章
1812

瀏覽量
116040
圖像分析

圖像分析

+關(guān)注

關(guān)注
0

文章
82

瀏覽量
19228
自然語言

自然語言

+關(guān)注

關(guān)注
1

文章
292

瀏覽量
13986

原文標(biāo)題：學(xué)會原創(chuàng) | 自然語言的語義表示學(xué)習(xí)方法與應(yīng)用

文章出處：【微信號：CAAI-1981，微信公眾號：中國人工智能學(xué)會】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

自然語言的語義表示學(xué)習(xí)方法與應(yīng)用

評論