91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自制Word2Vec圖書推薦系統(tǒng),幫你找到最想看的書!

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-09-25 08:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近有開發(fā)者自制了一套圖書推薦系統(tǒng),使用Word2Vec算法將書目表示為向量,可以同時獲得幾種書籍的推薦結(jié)果,并獲得書籍的TSNE圖及相似度最高的推薦。圖書數(shù)據(jù)來自GoodReads上的評價最高的前10000本書。開發(fā)者表示,采用較小的batchsize和長度可變的窗口可提升推薦相似度。

近日,有開發(fā)人員自制了一套圖書推薦系統(tǒng),使用Word2Vec算法將書目表示為向量,可以同時獲得幾種書籍的推薦,并獲得書籍的TSNE圖以及相似度最高的推薦信息。訓(xùn)練數(shù)據(jù)來自GoodReads上的評價最高的前10000本書。

作者將這一系統(tǒng)在Reddit論壇上進(jìn)行了算法介紹和推薦效果圖分享,引發(fā)廣泛討論。我們不妨來看看這個自制薦書系統(tǒng)是怎么做的。

以下是作者自己給出的系統(tǒng)展示和介紹,最后是技術(shù)實(shí)現(xiàn)環(huán)節(jié)的相關(guān)討論。

下面的圖片來自兩個2D TSNE生成的圖書嵌入圖。第一部分是數(shù)據(jù)中最常出現(xiàn)的3000本書的TNSE(已經(jīng)過10000本書的數(shù)據(jù)訓(xùn)練),第二部分是全部10000本書的TSNE。

我做了兩個TSNE圖,因?yàn)殡S著書籍書目的增加,推薦的準(zhǔn)確度趨于下降,所以我想查看最常出現(xiàn)的書籍的分布圖,然后再處理其余的書。

首先最常出現(xiàn)的3000本書的TSNE圖,先給出幾個局部放大圖,最后放上全圖。

下圖為作于最近30-40年間的奇幻/古典奇幻類書

中間的部分大部分是漫畫書,周圍是一些科學(xué)類書籍

宇宙科幻類:

喜劇類(主要是電視?。?/p>

全圖

然后是全部10000本書的TSNE圖,同樣先給出幾個局部圖,最后是全圖。

歷史類書籍。圖左半部為美國史,右半部為世界通史

宇宙史和起源理論

兒童經(jīng)典書目

食品科學(xué)和新聞類

Word2Vec薦書系統(tǒng)的技術(shù)實(shí)現(xiàn)

下面是一些技術(shù)上的實(shí)現(xiàn)要點(diǎn),對機(jī)器學(xué)習(xí)感興趣的小伙伴們可以關(guān)注一下。

1、使用較小的batch size

訓(xùn)練中使用batch size較?。?2和64)對于確保所有書籍向量的穩(wěn)健性非常重要。在更高的batch size(128、256和512)下,大多數(shù)向量具有相當(dāng)?shù)南嗨菩?,但似乎總是有一些書的向量不具備相似性?/p>

以《哈利·波特》2-7部的推薦結(jié)果為例,如果直接查看數(shù)據(jù),很容易知道與這些書相似度最高的書應(yīng)該是該系列中的其他《哈利·波特》書,但最初推薦模型給出的相似圖書結(jié)果并非如此。但是,在把batch size設(shè)置為64后,推薦結(jié)果的相似度很快得到明顯改善。

由于平均窗口大小為112,并在20到200之間變化(取決于用戶閱讀的書籍?dāng)?shù)量),因此像《哈利·波特》這樣的系列叢書中的一些書,很可能會與其他書籍匹配為相似了。

假設(shè)某系列叢書中共有7本書,并且用戶對所有7本書都進(jìn)行了評分,該用戶還評價了112本其他書,那么,其中一本《哈利·波特》書與另一本《哈利·波特》在該用戶的標(biāo)簽下實(shí)現(xiàn)配對的概率是6/112。

在這種情況下,由于word2vec試圖一次性優(yōu)化多個嵌入,因此對于窗口大小很小且恒定的情況,更高的batch size會比word2vec算法的應(yīng)用對結(jié)果優(yōu)化造成更加明顯的阻礙。

2、Softmax嵌入向量算術(shù)

到目前為止,上面的所有矢量算術(shù)示例都是我在書籍輸入嵌入上執(zhí)行加法和/或減法,然后針對softmax嵌入對結(jié)果矢量執(zhí)行相似性結(jié)果的情況。比結(jié)果向量與輸入嵌入進(jìn)行比較要穩(wěn)健得多。

3、可變長度窗口(VLW)

最初的Word2Vec Cbow算法使用固定的窗口大小的單詞用作特定目標(biāo)的輸入。比如,如果窗口大小是目標(biāo)詞左側(cè)和右側(cè)的2個單詞,那么在這句“The cat in the hat”中,如果目標(biāo)詞(標(biāo)簽)是“in”,那么單詞'The ','cat','the'和'hat'將各自向量進(jìn)行平均,并將得到的結(jié)果向量作為輸入。

而在這個薦書系統(tǒng)中,窗口大小不可能是固定的。對于特定數(shù)據(jù)點(diǎn)(輸入),由用戶輸入的所有對全部書籍的評價都可能作為潛在的輸入,而且每個用戶瀏覽過的書籍?dāng)?shù)量彼此存在很大差異,因此窗口大小不可能恒定。

盡管窗口大小不是恒定的,但是平均輸入向量的數(shù)量是保持不變的。所有提供的數(shù)據(jù)都使用兩個平均向量作為輸入,這樣向量的算術(shù)屬性的穩(wěn)健性是最高的。改變輸入平均向量的數(shù)量,在相似性推薦屬性方面并沒有表現(xiàn)出明顯優(yōu)勢。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4784

    瀏覽量

    98042
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8553

    瀏覽量

    136931

原文標(biāo)題:【Reddit今日最火】Lit2Vec圖書推薦系統(tǒng),自動推薦適合你的AI好書!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    UHF RFID通道門圖書館應(yīng)用12個核心問題全解答

    頻(0.8 米以內(nèi))更易捕捉快速通行的圖書;②批量識別能力,單通道每秒可處理 20 + 標(biāo)簽,解決讀者多本圖書同時出入的識別需求;③成本更低,UHF 標(biāo)簽價格僅為高頻標(biāo)簽的 1/3-1/2,百萬冊館藏可節(jié)省數(shù)十萬元成本。據(jù)《20
    的頭像 發(fā)表于 12-31 15:30 ?319次閱讀

    融智興科技:RFID圖書管理標(biāo)簽技術(shù)解析與智慧圖書館應(yīng)用

    融智興科技推出高頻RFID圖書管理標(biāo)簽系列產(chǎn)品。該標(biāo)簽專為圖書和檔案管理設(shè)計(jì),支持高效識別和數(shù)據(jù)處理。
    的頭像 發(fā)表于 12-18 17:23 ?956次閱讀
    融智興科技:RFID<b class='flag-5'>圖書</b>管理標(biāo)簽技術(shù)解析與智慧<b class='flag-5'>圖書</b>館應(yīng)用

    pdf轉(zhuǎn)換成word文檔格式亂了

    df轉(zhuǎn)換成word文檔格式亂了 ? 將 pdf 轉(zhuǎn)為 word 是常見的操作,但很多人發(fā)現(xiàn)結(jié)果很亂,文字會移位,字體變化,表格斷裂,圖片偏離原位.這是因?yàn)?pdf 存儲的是最終的排版用于顯示或打印
    的頭像 發(fā)表于 11-22 10:04 ?1080次閱讀

    按圖搜索1688商品API接口技術(shù)實(shí)現(xiàn)指南

    {similarity} = frac{1}{1 + | vec{v}_1 - vec{v}_2 | } $$ 其中$vec{v}_1$和$vec
    的頭像 發(fā)表于 11-11 14:18 ?354次閱讀
    按圖搜索1688商品API接口技術(shù)實(shí)現(xiàn)指南

    智慧圖書館國產(chǎn)化

    XC3568H、XC3588H、XC3576H三款高性能工控主板,結(jié)合國產(chǎn)麒麟操作系統(tǒng),為智慧圖書館的建設(shè)注入了強(qiáng)大的“中國芯”與“中國魂”,開啟了全面國產(chǎn)化的智慧新篇章
    的頭像 發(fā)表于 11-05 10:28 ?402次閱讀
    智慧<b class='flag-5'>圖書</b>館國產(chǎn)化

    PN27G01A-芯片里的“圖書館”

    的“備注/備份”,非常適合需要大量數(shù)據(jù)分區(qū)存儲的應(yīng)用場景。 ? 數(shù)據(jù)如何找到? 芯片通過12位的“列地址”和16位的“頁/塊地址”,就像在圖書館里用編號精確地定位每一本,既高效又精準(zhǔn)。 性能表現(xiàn):速度快,效率高 PN27G01
    的頭像 發(fā)表于 10-31 08:33 ?261次閱讀
    PN27G01A-芯片里的“<b class='flag-5'>圖書</b>館”

    能耗管理系統(tǒng)怎么選?5 大核心功能幫你精準(zhǔn)控能

    能耗管理系統(tǒng)怎么選?5 大核心功能幫你精準(zhǔn)控能 在 “雙碳” 目標(biāo)與企業(yè)降本需求的雙重驅(qū)動下,能耗管理系統(tǒng)已成為制造業(yè)、服務(wù)業(yè)、建筑業(yè)等領(lǐng)域?qū)崿F(xiàn)能源高效利用的關(guān)鍵工具。然而,市場上的能耗管理
    的頭像 發(fā)表于 10-10 17:14 ?816次閱讀

    RFID 系統(tǒng)與智能工具柜:重構(gòu)社康、圖書館與醫(yī)療行業(yè)的資產(chǎn)管理范式

    在數(shù)字化轉(zhuǎn)型的深水區(qū),基層服務(wù)與專業(yè)機(jī)構(gòu)的資產(chǎn)管理正面臨效率與安全的雙重考驗(yàn):某社康中心每月因疫苗冷鏈記錄疏漏被約談 3 次;某圖書館年度盤點(diǎn)耗費(fèi) 500 工時,仍有 12% 圖書賬實(shí)不符;某醫(yī)院
    的頭像 發(fā)表于 07-07 16:21 ?645次閱讀
    RFID <b class='flag-5'>系統(tǒng)</b>與智能工具柜:重構(gòu)社康、<b class='flag-5'>圖書</b>館與醫(yī)療行業(yè)的資產(chǎn)管理范式

    圖書館WiFi總掉線?我的秘密武器居然是它.

    作為一個泡圖書館的“網(wǎng)絡(luò)難民”,我太懂那種抓狂了——好不容易找到個插座坐下,正啃著文獻(xiàn)呢,WiFi突然斷連,IP還被限制訪問。重新登錄、換瀏覽器、甚至重啟電腦都不管用...直到我在圖書館“偶遇”了
    發(fā)表于 06-10 18:05

    basys2開發(fā)板說明

    basys2開發(fā)板說明
    發(fā)表于 06-08 09:52 ?1次下載

    RFID在圖書館自動化中的應(yīng)用

    RFID系統(tǒng),可以實(shí)時獲取圖書的位置和狀態(tài)信息,便于及時調(diào)整管理計(jì)劃。自動化:RFID可以與自動管理系統(tǒng)結(jié)合,實(shí)現(xiàn)借還的自動化,減少人力成本。具體應(yīng)用場景1.
    的頭像 發(fā)表于 05-27 17:15 ?707次閱讀
    RFID在<b class='flag-5'>圖書</b>館自動化中的應(yīng)用

    RFID智能書架:圖書館數(shù)字化轉(zhuǎn)型的新核心技術(shù)

    隨著數(shù)字化轉(zhuǎn)型的推進(jìn),圖書館智能化升級成為趨勢。RFID智能書架憑借高效、精準(zhǔn)、自動化的管理能力,成為圖書館現(xiàn)代化轉(zhuǎn)型的新寵。
    的頭像 發(fā)表于 04-28 11:26 ?817次閱讀
    RFID智能書架:<b class='flag-5'>圖書</b>館數(shù)字化轉(zhuǎn)型的新核心技術(shù)

    圖書館效率革命!RFID智能書柜如何顛覆傳統(tǒng)借閱體驗(yàn)?

    傳統(tǒng)借閱體驗(yàn)繁瑣且低效,圖書館借閱效率亟待提升。RFID智能書柜顛覆傳統(tǒng)借閱體驗(yàn),實(shí)現(xiàn)圖書精準(zhǔn)定位與高效管理。便捷自助借還,縮短借還時間,降低排隊(duì)時間,提高借閱體驗(yàn)。
    的頭像 發(fā)表于 04-23 15:21 ?572次閱讀
    <b class='flag-5'>圖書</b>館效率革命!RFID智能書柜如何顛覆傳統(tǒng)借閱體驗(yàn)?

    RFID圖書管理系統(tǒng)如何重構(gòu)數(shù)字化倉儲管理新生態(tài)

    圖書館與出版行業(yè)數(shù)字化轉(zhuǎn)型進(jìn)程中,RFID圖書管理系統(tǒng)正打破傳統(tǒng)人工管理的效率瓶頸,通過與數(shù)字化倉儲管理系統(tǒng)的深度融合,實(shí)現(xiàn)從圖書采購、入
    的頭像 發(fā)表于 04-18 16:59 ?795次閱讀
    RFID<b class='flag-5'>圖書</b>管理<b class='flag-5'>系統(tǒng)</b>如何重構(gòu)數(shù)字化倉儲管理新生態(tài)

    智慧閱讀觸手可及——RFID微型圖書館,你了解嗎?

    RFID微型圖書館是一種新型的閱讀模式,通過射頻識別技術(shù)構(gòu)建的小型化、智能化圖書館設(shè)施。它提供24小時自助服務(wù)、多種登錄方式、圖書定位與查找、快速盤點(diǎn)圖書和數(shù)據(jù)統(tǒng)計(jì)與分析等功能,極大地
    的頭像 發(fā)表于 04-09 15:37 ?738次閱讀
    智慧閱讀觸手可及——RFID微型<b class='flag-5'>圖書</b>館,你了解嗎?