91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

fastText有兩大用途——文本分類和Word Embedding

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:SimpleAI ? 作者:SimpleAI ? 2021-03-05 15:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天我們來(lái)看 Mikolov 大佬 2016 年的另一大巨作——fastText。2013 年大佬在 Google 開源了 Word2Vec,2016 年剛就職于 FaceBook 就開源了 fastText,全都掀起了軒然大波。

fastText 模型有兩篇相關(guān)論文:

《Bag of Tricks for Efficient Text Classification》

《Enriching Word Vectors with Subword Information》

截至目前為止,第一篇有 1500 多引用量,第二篇有 2700 多引用量。

從這兩篇文的標(biāo)題我們可以看出來(lái) fastText 有兩大用途——文本分類和Word Embedding。

由于 fastText 模型比較簡(jiǎn)單,所以我們可以把兩篇論文放在一起看。

1. Introduction

fastText 提供了簡(jiǎn)單而高效的文本分類和 Word Embedding 方法,分類精度比肩深度學(xué)習(xí)而且速度快上幾個(gè)數(shù)量級(jí)。

舉個(gè)例子:使用標(biāo)準(zhǔn)的 CPU 可以在十分鐘的時(shí)間里訓(xùn)練超過(guò) 10 億個(gè)單詞,在不到一分鐘的時(shí)間里可以將 50 萬(wàn)個(gè)句子分到 31 萬(wàn)個(gè)類別中。

可以看到 fastText 的速度有多驚人。

2. fastText

fastText 之所以能做到速度快效果好主要是兩個(gè)原因:N-Gram 和 Hierarchical softmax。由于 Hierarchical softmax 在 Word2Vec 中已經(jīng)介紹過(guò)了,所以我們只介紹一下 N-gram。

2.1 N-gram

N-gram 是一種基于統(tǒng)計(jì)語(yǔ)言模型的算法,常用于 NLP 領(lǐng)域。其思想在于將文本內(nèi)容按照字節(jié)順序進(jìn)行大小為 N 的滑動(dòng)窗口操作,從而形成了長(zhǎng)度為 N 的字節(jié)片段序列,其片段我們稱為 gram。

以“谷歌是家好公司” 為例子:

二元 Bi-gram 特征為:谷歌 歌是 是家 家好 好公 公司

三元 Tri-gram 特征為:谷歌是 歌是家 是家好 家好公 好公司

當(dāng)然,我們可以用字粒度也可以用詞粒度。

例如:谷歌 是 家 好 公司二元 Bi-gram 特征為:谷歌是 是家 家好 好公司三元 Tri-gram 特征為:谷歌是家 是家好 家好公司

N-gram 產(chǎn)生的特征只是作為文本特征的候選集,后面還可以通過(guò)信息熵、卡方統(tǒng)計(jì)、IDF 等文本特征選擇方式篩選出比較重要的特征。

2.2 Embedding Model

這邊值得注意的是,fastText 是一個(gè)庫(kù),而不是一個(gè)算法。類似于 Word2Vec 也只是一個(gè)工具,Skip-Gram 和 CBOW 才是其中的算法。

?

fastText is a library for efficient learning of word representations and sentence classification.

fastText 在 Skip-Gram 的基礎(chǔ)上實(shí)現(xiàn) Word Embedding,具體來(lái)說(shuō):fastText 通過(guò) Skip-Gram 訓(xùn)練了字符級(jí)別 N-gram 的 Embedding,然后通過(guò)將其相加得到詞向量。

舉個(gè)例子:對(duì)于 “where” 這個(gè)單詞來(lái)說(shuō),它的 Tri-gram 為:“”。由于字符串首尾會(huì)有符號(hào),所以這里用 < 表示前綴, > 表示后綴。textFast 是對(duì) 這些 Tri-gram 進(jìn)行訓(xùn)練,然后將這 5 個(gè) tri-gram 的向量求和來(lái)表示 “where” 的詞向量。

這樣做主要有兩個(gè)好處:

低頻詞生成的 Embedding 效果會(huì)更好,因?yàn)樗鼈兊?N-gram 可以和其它詞共享而不用擔(dān)心詞頻過(guò)低無(wú)法得到充分的訓(xùn)練;

對(duì)于訓(xùn)練詞庫(kù)之外的單詞(比如拼錯(cuò)了),仍然可以通過(guò)對(duì)它們字符級(jí)的 N-gram 向量求和來(lái)構(gòu)建它們的詞向量。

為了節(jié)省內(nèi)存空間,我們使用 HashMap 將 N-gram 映射到 1 到 K,所以單詞的除了存儲(chǔ)自己在單詞表的 Index 外,還存儲(chǔ)了其包含的 N-gram 的哈希索引

2.3 Classification Model

一般來(lái)說(shuō),速度快的模型其結(jié)構(gòu)都會(huì)比較簡(jiǎn)單,fastText 也不例外,其架構(gòu)圖如下圖所示:

2279e3e0-7c22-11eb-8b86-12bb97331649.png

fastText Architecture

其中, 為一個(gè)句子的 N-gram 特征。

我們看到這個(gè)架構(gòu)是不是感覺(jué)似曾相似?

fastText 與 Word2Vec 的 CBOW 架構(gòu)是非常相似的,但與 CBOW 不同的是:fastText 輸入不僅是多個(gè)單詞 Embedding 向量,還將字符級(jí)別的 N-gram 向量作為額外的特征,其預(yù)測(cè)是也不是單詞,而是 Label(fastText 主要用于文本分類,所以預(yù)測(cè)的是分類標(biāo)簽)。

3. Experiment

我們簡(jiǎn)單看下 fastText 的兩個(gè)實(shí)驗(yàn)——Embedding 和文本分類;

3.1 Embeddng

sisg 是 fastText 用于 Embedding 的模型,實(shí)驗(yàn)效果如下:

3.2 Classification

分類實(shí)驗(yàn)的精度 fastText 比 char-CNN、 char-RCNN 要好,但比 VDCNN 要差。(但這里注意:fastText 僅僅使用 10 個(gè)隱藏層節(jié)點(diǎn) ,訓(xùn)練了 5 次 epochs。)

在速度上 fastText 快了幾個(gè)數(shù)量級(jí)。(此處注意:CNN 和 VDCNN 用的都是 Tesla K40 的 GPU,而 fastText 用的是 CPU)

下面是標(biāo)簽預(yù)測(cè)的結(jié)果,兩個(gè)模型都使用 CPU 并開了 20 個(gè)線程:

4. Conclusion

一句話總結(jié):fastText 是一個(gè)用于文本分類和 Embedding 計(jì)算的工具庫(kù),主要通過(guò) N-gram 和 Hierarchical softmax 保證算法的速度和精度。

關(guān)于 Hierarchical softmax 為什么會(huì)使 fastText 速度那么快?而在 Word2Vec 中沒(méi)有看到類似的效果?

我覺(jué)得是因?yàn)?fastText 的標(biāo)簽數(shù)量相比 Word2Vec 來(lái)說(shuō)要少很多,所以速度會(huì)變的非???。其次 Hierarchical softmax 是必要的,如果不同的話速度會(huì)慢非常多。

另外,fastText 可能沒(méi)有什么創(chuàng)新,但他卻異?;鸨?,可能有多個(gè)原因,其中包括開源了高質(zhì)量的 fastText,類似 Work2Vec,當(dāng)然也會(huì)有 Mikolov 大佬和 Facebook 的背書。

總的來(lái)說(shuō),fastText 還是一個(gè)極具競(jìng)爭(zhēng)力的一個(gè)工具包。

5. Reference

《Bag of Tricks for Efficient Text Classification》

《Enriching Word Vectors with Subword Information》

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4786

    瀏覽量

    98256
  • 文本分類
    +關(guān)注

    關(guān)注

    0

    文章

    18

    瀏覽量

    7470
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5600

    瀏覽量

    124487

原文標(biāo)題:fastText:極快的文本分類工具

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    “中國(guó)智造出?!迸c“物理AI落地”兩大核心主題將繼續(xù)解鎖全新產(chǎn)業(yè)機(jī)遇

    初步展現(xiàn)這兩大趨勢(shì)的CES余溫未散,而巴展(MWC)與嵌入式世界(EW)將上演其協(xié)同推進(jìn)發(fā)展的新動(dòng)力
    的頭像 發(fā)表于 02-27 11:56 ?204次閱讀
    “中國(guó)智造出?!迸c“物理AI落地”<b class='flag-5'>兩大</b>核心主題將繼續(xù)解鎖全新產(chǎn)業(yè)機(jī)遇

    兩大半導(dǎo)體巨頭,關(guān)廠!

    近日,市場(chǎng)傳出兩大半導(dǎo)體廠商關(guān)廠的消息,一是三星年內(nèi)將關(guān)閉一座8英寸晶圓廠,二是安靠將關(guān)閉日本函館封裝廠。
    的頭像 發(fā)表于 01-16 17:39 ?1122次閱讀

    博世中國(guó)一舉斬獲兩大重要獎(jiǎng)項(xiàng)

    12月11日,中國(guó)歐盟商會(huì) 2025 年可持續(xù)商業(yè)獎(jiǎng)?lì)C獎(jiǎng)典禮在上海舉行。博世中國(guó)憑借在綠色制造及社區(qū)共創(chuàng)兩大領(lǐng)域的持續(xù)深耕,一舉斬獲兩大重要獎(jiǎng)項(xiàng)。
    的頭像 發(fā)表于 12-22 15:06 ?594次閱讀

    曦智科技榮登2025VENTURE50兩大榜單

    2025年12月4日,由清科控股、投資界發(fā)起的 2025VENTURE50 榜單最終揭曉。曦智科技憑借卓越的創(chuàng)新實(shí)力與高成長(zhǎng)性,榮登 “風(fēng)云50” 與 “硬科技50” 兩大榜單,收獲來(lái)自資本市場(chǎng)與產(chǎn)業(yè)領(lǐng)域的雙重認(rèn)可!
    的頭像 發(fā)表于 12-11 17:51 ?1293次閱讀

    潤(rùn)和軟件榮獲ESG領(lǐng)域兩大獎(jiǎng)項(xiàng)

    近日,ESG領(lǐng)域兩大獎(jiǎng)項(xiàng)評(píng)選結(jié)果分別揭曉,江蘇潤(rùn)和軟件股份有限公司(證券簡(jiǎn)稱:潤(rùn)和軟件,證券代碼:300339)憑借在環(huán)境、社會(huì)和公司治理(ESG)領(lǐng)域的深入實(shí)踐及突出表現(xiàn),榮膺2025年度財(cái)聯(lián)社
    的頭像 發(fā)表于 11-26 15:25 ?429次閱讀

    pdf轉(zhuǎn)換成word文檔格式亂了

    ,不是文檔結(jié)構(gòu),當(dāng)軟件試圖把排版映射回可編輯的 word 元素時(shí),必須猜測(cè)各部分關(guān)系,這些猜測(cè)可能錯(cuò)尤其是多欄、混合字體或掃描圖片的復(fù)雜頁(yè)面.下面講為什么格式會(huì)出問(wèn)題,先檢查什么,以及用簡(jiǎn)單方法如何得到更整潔的 word 文件
    的頭像 發(fā)表于 11-22 10:04 ?1167次閱讀

    華寶新能美學(xué)曲面光伏瓦亮相兩大行業(yè)盛會(huì)

    近日,便攜光儲(chǔ)全球領(lǐng)導(dǎo)者和首家全場(chǎng)景家庭綠電企業(yè)華寶新能攜美學(xué)曲面光伏瓦,同步亮相上海CADE建筑設(shè)計(jì)博覽會(huì)與北京住博會(huì)兩大行業(yè)盛會(huì),美學(xué)曲面光伏瓦憑借“能源美學(xué) + 技術(shù)突破”的雙重創(chuàng)新贏得眾多關(guān)注,成為兩大展會(huì)綠色能源展區(qū)的焦點(diǎn),為光伏建筑一體化(BIPV)行業(yè)發(fā)展注
    的頭像 發(fā)表于 11-17 14:36 ?349次閱讀

    英創(chuàng)立亮相香港兩大電子展會(huì)

    2025年10月,英創(chuàng)立攜前沿電子制造技術(shù)與PCB、PCBA一站式解決方案,亮相香港兩大電子展會(huì)。歷經(jīng)數(shù)日的精彩展示與深度交流,2025貿(mào)發(fā)局香港秋季電子產(chǎn)品展、環(huán)球資源秋季電子展已圓滿收官,我們滿載成果與信任,感恩每一位伙伴的蒞臨與支持!
    的頭像 發(fā)表于 10-23 11:50 ?886次閱讀

    水晶光電榮登2025年度浙江省兩大榜單

    近日,浙江省經(jīng)信廳公布2025年度"浙江省制造精品"和"浙江省優(yōu)秀工業(yè)新產(chǎn)品"名單,水晶光電自主研發(fā)的高端攝像頭藍(lán)寶石保護(hù)器件與合式折疊光路微棱鏡分別榮登兩大榜單。
    的頭像 發(fā)表于 08-20 17:47 ?2559次閱讀

    新思科技與TeraSignal在光網(wǎng)絡(luò)領(lǐng)域達(dá)成兩大里程碑

    新思科技與TeraSignal在光網(wǎng)絡(luò)領(lǐng)域達(dá)成兩大里程碑,展示了基于線性光學(xué)技術(shù)的PCIe 6.x和112 Gbps以太網(wǎng)的無(wú)縫互操作性。
    的頭像 發(fā)表于 08-15 15:42 ?1087次閱讀
    新思科技與TeraSignal在光網(wǎng)絡(luò)領(lǐng)域達(dá)成<b class='flag-5'>兩大</b>里程碑

    西門子EDA產(chǎn)品組合新增兩大解決方案

    西門子數(shù)字化工業(yè)軟件日前宣布為其電子設(shè)計(jì)自動(dòng)化 (EDA) 產(chǎn)品組合新增兩大解決方案,助力半導(dǎo)體設(shè)計(jì)團(tuán)隊(duì)攻克 2.5D/3D 集成電路 (IC) 設(shè)計(jì)與制造的復(fù)雜挑戰(zhàn)。
    的頭像 發(fā)表于 07-14 16:43 ?3335次閱讀

    電容分為哪幾種,各有什么用途呢?

    ?:小范圍調(diào)節(jié)容量,用于電路校準(zhǔn)。 ?按功能用途分類? ?濾波電容?:平滑電源紋波(如電解電容+陶瓷電容組合)。 ?耦合電容?:隔直通交,連接信號(hào)源與放大電路。 ?旁路電容?:為高頻信號(hào)提供低阻抗通路(如
    發(fā)表于 06-05 15:29

    飛虹半導(dǎo)體兩大行業(yè)盛會(huì)圓滿落幕

    4月,作為國(guó)內(nèi)深耕于IGBT、MOS管的廠家代表,飛虹半導(dǎo)體成功參加了第104屆中國(guó)電子展(深圳)以及慕尼黑上海電子展,兩大行業(yè)盛會(huì)圓滿落幕。
    的頭像 發(fā)表于 04-29 11:39 ?1028次閱讀

    天合儲(chǔ)能Elementa金剛2榮獲兩大國(guó)際權(quán)威機(jī)構(gòu)認(rèn)證

    近日,天合儲(chǔ)能Elementa 金剛2以其卓越的安全性、可靠性和可融資性,同時(shí)獲得DNV和UL Solutions兩大國(guó)際權(quán)威機(jī)構(gòu)的認(rèn)證。Elementa 金剛2針對(duì)海外不同的儲(chǔ)能需求提供4MWh和5MWh種配置方案,其創(chuàng)新設(shè)計(jì)和卓越性能獲得評(píng)審機(jī)構(gòu)高度認(rèn)可。
    的頭像 發(fā)表于 04-27 15:48 ?807次閱讀

    電裝發(fā)布環(huán)境與安心兩大領(lǐng)域的戰(zhàn)略成果

    近日,電裝于「第二十一屆上海國(guó)際汽車工業(yè)展覽會(huì)」新聞發(fā)布會(huì)上,圍繞“環(huán)境”與“安心”兩大領(lǐng)域,展示在電動(dòng)化、智能化與可持續(xù)發(fā)展領(lǐng)域的創(chuàng)新成果,彰顯長(zhǎng)期深耕中國(guó)市場(chǎng)、持續(xù)推動(dòng)可持續(xù)出行的戰(zhàn)略承諾與行動(dòng)。
    的頭像 發(fā)表于 04-27 11:11 ?983次閱讀