91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自然語言的語義表示學(xué)習(xí)方法與應(yīng)用

MqC7_CAAI_1981 ? 來源:lp ? 2019-03-08 14:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

近年來,以深度學(xué)習(xí)為代表的表示學(xué)習(xí)技術(shù)在語音識別、圖像分析和自然語言處理(NLP)領(lǐng)域獲得了廣泛關(guān)注。表示學(xué)習(xí)旨在將研究對象的語義信息表示為低維稠密實(shí)值向量。表示學(xué)習(xí)得到的低維向量表示是一種分布式表示,孤立地看向量中的每一維,都沒有明確對應(yīng)的含義;而綜合各維形成一個(gè)向量,則能夠表示對象的語義信息。

與更簡單的獨(dú)熱(one-hot)表示方法相比,表示學(xué)習(xí)的向量維度較低,有助于提高計(jì)算效率,同時(shí)能夠充分利用對象間的語義信息,從而有效緩解數(shù)據(jù)稀疏問題。由于表示學(xué)習(xí)的這些優(yōu)點(diǎn),最近出現(xiàn)了大量關(guān)于單詞、短語、實(shí)體、句子、文檔和社會網(wǎng)絡(luò)的表示學(xué)習(xí)研究。

1

自然語言的詞表示方法

在NLP 中,文本表示是一個(gè)極為關(guān)鍵的問題。最初,詞袋模型是最常用的文本表示模型之一。隨著深度神經(jīng)網(wǎng)絡(luò)的興起,人們提出了一種新的獲得詞向量的詞嵌入(Word Embedding)方法[1-3],以解決詞匯表過大帶來的“維度爆炸”問題。詞和句子的嵌入已成為所有基于深度學(xué)習(xí)的NLP系統(tǒng)的重要組成部分,它們在固定長度的稠密向量中編碼單詞和句子,從而大幅度提高神經(jīng)網(wǎng)絡(luò)處理文本數(shù)據(jù)的能力。詞向量的獲取方式可以大體分為基于統(tǒng)計(jì)的方法(例如基于共現(xiàn)矩陣、SVD)和基于語言模型[4-5] 的方法兩類。2013 年,Google 團(tuán)隊(duì)發(fā)表了基于語言模型獲取詞向量的word2vec工具[6]。它的核心思想是通過詞的上下文得到詞的向量化表示,包括CBOW(通過附近詞預(yù)測中心詞)和Skip-gram(通過中心詞預(yù)測附近詞)兩種方法,以及負(fù)采樣和層次softmax 兩種近似訓(xùn)練法。word2vec 的詞向量可以較好地表達(dá)不同詞之間的相似和類比關(guān)系,自提出后被廣泛應(yīng)用在NLP任務(wù)中。進(jìn)一步地,由于word2vec 的詞向量是固定不變的,不能有效地解決多義詞的問題,產(chǎn)生了根據(jù)上下文隨時(shí)變化詞向量的ELMO 模型[7]。該模型從深層的雙向語言模型的內(nèi)部狀態(tài)學(xué)習(xí)得到詞的表示,能夠處理單詞用法中的復(fù)雜特性,以及這些用法在不同的語言上下文中的變化,從而解決了多義詞的問題。

2

自然語言的結(jié)構(gòu)表示方法

在獲取句子或文檔的語義表示時(shí),一段話的語義由其各組成部分的語義,以及它們之間的組合方法所確定[8]。由此,一些工作開始嘗試根據(jù)輸入的結(jié)構(gòu)設(shè)計(jì)模型的結(jié)構(gòu)。比如卷積神經(jīng)網(wǎng)絡(luò)(CNN)以n-gram作為基本單位建立句子表示[9-10]。而遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network) 則根據(jù)輸入的樹結(jié)構(gòu)構(gòu)建句子的表示[11-12]。此外,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及各種改進(jìn)(如長短時(shí)記憶網(wǎng)絡(luò)(LSTM))被證明是有效的句子級別表示方法[13]。在此基礎(chǔ)上,一些更為優(yōu)越的結(jié)構(gòu)增強(qiáng)型LSTM 和之前模型的各種組合的方法也在之后被提出。事實(shí)上,LSTM 引入一個(gè)近似線性依賴的記憶單元來存儲遠(yuǎn)距離的信息,以解決簡單RNN 的長期依賴問題。記憶單元的存儲能力和其大小有關(guān),增加記憶單元的大小將導(dǎo)致網(wǎng)絡(luò)參數(shù)的增加。針對這種情況,產(chǎn)生了注意力機(jī)制和外部記憶的改進(jìn)方法。其中注意力機(jī)制[14] 是近年來在NLP 任務(wù)中被廣泛應(yīng)用的一種十分有效的技術(shù),在諸多領(lǐng)域都展示出了其優(yōu)越性。進(jìn)一步地,產(chǎn)生了一種只基于注意力機(jī)制對序列進(jìn)行表示的Transformer 結(jié)構(gòu)[15]。它摒棄了固有的定式,沒有使用任何CNN 或者RNN 的結(jié)構(gòu)。Transformer 可以綜合考慮句子兩個(gè)方向的信息,而且有很好的并行性質(zhì),可以大大減少訓(xùn)練時(shí)間。

3

預(yù)訓(xùn)練在NLP 中的應(yīng)用

值得一提的是,很多自然語言特征表示方法及詞表示方法都采用一種兩階段的訓(xùn)練方法,即首先在無標(biāo)記數(shù)據(jù)上通過預(yù)訓(xùn)練學(xué)習(xí)特征或者詞的表示;再以這些表示作為特征,在標(biāo)記數(shù)據(jù)上進(jìn)行監(jiān)督訓(xùn)練。前文所提到的word2vec 和ELMO 方法就經(jīng)常被用于詞向量的預(yù)訓(xùn)練。隨著深度學(xué)習(xí)在表示學(xué)習(xí)領(lǐng)域成為主流方法,以及Transformer等序列表示模型的發(fā)展,自然語言的表示學(xué)習(xí)從特征和詞的粒度被推廣到了更大的粒度,如短語和句子。這些深度學(xué)習(xí)模型也同樣受益于這種兩階段的訓(xùn)練方法。在ELMO 之后,新的語言表征預(yù)訓(xùn)練模型GPT 使用Transformer 來編碼[16], 克服了ELMO 使用LSTM 作為語言模型而帶來的并行計(jì)算能力差的缺點(diǎn)。而BERT 模型在采用Transformer 進(jìn)行編碼的同時(shí)雙向綜合地考慮上下文特征來對詞進(jìn)行預(yù)測[17]。與word2vec 和ELMO 不同,GPT 和BERT 在進(jìn)行第一階段的預(yù)訓(xùn)練之后只需要根據(jù)第二階段的任務(wù)對模型結(jié)構(gòu)進(jìn)行改造,精加工(fine-tuning)模型進(jìn)行監(jiān)督訓(xùn)練,使之適用于具體的任務(wù)。BERT 具有很強(qiáng)的普適性,幾乎所有 NLP 任務(wù)都可以套用這種兩階段解決思路,并且獲得效果的明顯提升。

4

其他NLP 表示學(xué)習(xí)方法與應(yīng)用

除了上文中通用的NLP 表示學(xué)習(xí)方法,自然語言仍存在很多性質(zhì)需要進(jìn)行深入研究。例如,漢語具有部首共享和漢字共享的特殊性質(zhì),即幾個(gè)漢字共同的部首通常是它們之間的核心語義關(guān)聯(lián);相應(yīng)地,一個(gè)漢語詞的意思可以通過其包含的漢字來表達(dá)。如圖1所示,基于部首感知和注意力機(jī)制的四粒度模型RAFG[18] 對這兩種性質(zhì)加以挖掘和利用,并將這些特征系統(tǒng)地融入到中文文本分類的任務(wù)中,從而實(shí)現(xiàn)對中文文本更為準(zhǔn)確的語義表示。

圖1:RAFG 獲得中文文本四個(gè)粒度特征的說明

此外,語言所處的環(huán)境信息(如圖像)會對語言的語義產(chǎn)生影響。進(jìn)一步地,圖像所包含的信息可能與句子語義的不同的粒度表示有關(guān)聯(lián)。為此,如圖2所示,圖像增強(qiáng)的層次化句子語義表示網(wǎng)絡(luò)IEMLRN[19]利用圖像信息從不同粒度來增強(qiáng)句子的語義理解與表示,實(shí)現(xiàn)了更為準(zhǔn)確的句子語義表示,以及句子對的語義關(guān)系分類。

圖2:圖像增強(qiáng)的層次化句子語義表示網(wǎng)絡(luò)IEMLRN結(jié)構(gòu)

最后,語義表示技術(shù)的發(fā)展使得多媒體信息的有效建模與語義表示成為可能,進(jìn)而為推薦、檢索等實(shí)際應(yīng)用場景提供支撐。近年來,多媒體共享平臺取得了突飛猛進(jìn)的發(fā)展。其中一種叫做“彈幕”的視頻實(shí)時(shí)評論愈發(fā)流行。為了有效理解視頻片段的內(nèi)容,如圖3 所示,基于深度神經(jīng)網(wǎng)絡(luò)的彈幕語義表征方法[20] 通過利用彈幕與視頻情節(jié)之間的關(guān)聯(lián)性,對彈幕進(jìn)行表示學(xué)習(xí),實(shí)現(xiàn)了對視頻片段的標(biāo)注。這種方法突破了常規(guī)視頻推薦/ 檢索系統(tǒng)只關(guān)注整段視頻的局限性,可以滿足細(xì)粒度的要求。

圖3:基于彈幕語義表征的視頻片段標(biāo)注框架會對語言的語義產(chǎn)生影響

5

結(jié)束語

自然語言的語義表示學(xué)習(xí)方法的發(fā)展為各種NLP 任務(wù)帶來了更多的可能性。新型網(wǎng)絡(luò)結(jié)構(gòu)的出現(xiàn)使我們可以得到更加有效的語義表征。而兩階段的預(yù)訓(xùn)練方法可以把大量的無標(biāo)注文本利用起來,對大量的通用語言學(xué)知識進(jìn)行抽取與表示,從而提升NLP 下游任務(wù)的效果。

自然語言的語義表示學(xué)習(xí)方法取得了令人矚目的成就,但在很多方面都仍值得繼續(xù)研究。無論是更強(qiáng)的特征抽取器還是引入大量數(shù)據(jù)中包含的語言學(xué)知識,對更加精確的語義表示都有著重要作用。盡管現(xiàn)有的很多NLP 任務(wù)還無法達(dá)到人類的水平, 但相信對自然語言語義表征的不斷研究、新技術(shù)的不斷出現(xiàn),會創(chuàng)造出更豐富的成果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1812

    瀏覽量

    116040
  • 圖像分析
    +關(guān)注

    關(guān)注

    0

    文章

    82

    瀏覽量

    19228
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13986

原文標(biāo)題:學(xué)會原創(chuàng) | 自然語言的語義表示學(xué)習(xí)方法與應(yīng)用

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學(xué)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    python自然語言

    學(xué)和人工智能,但同樣受到諸如機(jī)器學(xué)習(xí),計(jì)算統(tǒng)計(jì)學(xué)和認(rèn)知科學(xué)這些相對新興的學(xué)科影響。python下面只要安裝自然語言工具包nltk,下面版主開始正式進(jìn)入學(xué)習(xí)。Natural Language
    發(fā)表于 05-02 13:50

    NLPIR語義分析是對自然語言處理的完美理解

    和邏輯表示語義分析就是對信息所包含的語義的識別,并建立一種計(jì)算模型,使其能夠像人那樣理解自然語言。語義分析是
    發(fā)表于 10-19 11:34

    自然語言處理怎么最快入門?

    `本文整理自知乎上的一個(gè)問答,分享給正在學(xué)習(xí)自然語言處理的朋友們!一、自然語言處理是什么?自然語言處理說白了,就是讓機(jī)器去幫助我們完成一些
    發(fā)表于 11-28 10:02

    語義理解和研究資源是自然語言處理的兩大難題

    兩方面,語義理解和資源問題。 語義理解包括對自然語言知識和常識的學(xué)習(xí),如果只是要學(xué)習(xí)機(jī)器的知識,對于人類來說并不難,但是如果讓機(jī)器掌握人的思
    發(fā)表于 09-19 14:10

    自然語言處理的詞性標(biāo)注方法

    自然語言處理——78 詞性標(biāo)注方法
    發(fā)表于 04-21 11:38

    自然語言處理之66參數(shù)學(xué)習(xí)

    自然語言處理——66參數(shù)學(xué)習(xí)
    發(fā)表于 07-16 09:43

    什么是自然語言處理

    什么是自然語言處理?自然語言處理任務(wù)有哪些?自然語言處理的方法是什么?
    發(fā)表于 09-08 06:51

    什么是自然語言處理_自然語言處理常用方法舉例說明

    自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。自然語言處理是一門融
    發(fā)表于 12-28 16:56 ?1.9w次閱讀
    什么是<b class='flag-5'>自然語言</b>處理_<b class='flag-5'>自然語言</b>處理常用<b class='flag-5'>方法</b>舉例說明

    閑談深度學(xué)習(xí)自然語言處理領(lǐng)域的5大關(guān)鍵優(yōu)勢

    自然語言處理領(lǐng)域,深度學(xué)習(xí)將給予最大的幫助,深度學(xué)習(xí)方法主要依靠一下這五個(gè)關(guān)鍵優(yōu)勢,閱讀本文將進(jìn)一步了解自然語言處理的重要深度學(xué)習(xí)方法和應(yīng)
    發(fā)表于 01-12 16:00 ?4818次閱讀

    采用深度學(xué)習(xí)自然語言處理進(jìn)行分類

    用深度學(xué)習(xí)自然語言處理(NLP)進(jìn)行分類
    的頭像 發(fā)表于 11-05 06:51 ?4106次閱讀

    如何學(xué)習(xí)自然語言處理NLP詳細(xì)學(xué)習(xí)方法說明

    這篇文章是一名自然語言處理(nlp)的初學(xué)者,在nlp里摸爬滾打了許久的一些心得,推薦了nlp的學(xué)習(xí)路線和資料合集,本站極力推薦。
    的頭像 發(fā)表于 03-03 11:05 ?6410次閱讀

    多個(gè)視角對自然語言處理領(lǐng)域進(jìn)行全面梳理

    接著,對自然語言處理面臨的技術(shù)挑戰(zhàn)進(jìn)行了分析,包括自然語言中大量存在的未知語言現(xiàn)象、歧義詞匯和結(jié)構(gòu)、隱喻表達(dá)、以及翻譯問題中不同語言之間概念的不對等性等,
    的頭像 發(fā)表于 05-19 09:33 ?4460次閱讀

    自然語言處理(NLP)的學(xué)習(xí)方向

    自然語言處理(Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的理論和方法。融語言
    的頭像 發(fā)表于 07-06 16:30 ?1.4w次閱讀

    一窺AMR圖譜在自然語言處理中的應(yīng)用

    TreeBank 作為自然語言語法的結(jié)構(gòu)化表示可謂廣為人知,其實(shí)在語義層面也有一種類似的結(jié)構(gòu)化方法——抽象語義
    的頭像 發(fā)表于 09-05 14:22 ?2859次閱讀

    自然語言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語言處理的基本概念及步驟

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支,它致力于研究如何讓計(jì)算機(jī)能夠理解、解釋和生成人類語言。機(jī)器學(xué)習(xí)(Ma
    的頭像 發(fā)表于 12-05 15:21 ?2749次閱讀