91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

想深度構建用戶畫像?掌握關聯分析必不可少

格創(chuàng)東智 ? 2019-04-28 19:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

無論是提供商品還是服務,用戶畫像都是數據挖掘工作的重要一環(huán)。一個準確和完整的用戶畫像甚至可以說是許多互聯網公司賴以生存的寶貴財富。


我們也已經聽過了無數用戶畫像的神奇功能和成功案例,比如亞馬遜、淘寶的機器學習團隊使用用戶的瀏覽行為、購物車狀態(tài)和購買記錄開發(fā)關聯推薦系統(tǒng),使點擊率和銷量大幅提升;比如應用市場根據過往APP安裝記錄記對每個使用者進行精準推薦;再比如音樂,圖書和新聞網站通過協同過濾的方式為用戶呈現個性化的定制內容。要做到這些,就必須對用戶的數據進行關聯分析,得到精準的推薦算法


今天的格物匯,就帶大家來了解關聯分析理論和經典的Apriori算法。

關聯分析

關聯分析是數據挖掘中一項基礎又重要的技術,是一種在大型數據庫中發(fā)現變量之間有趣關系的方法,能從數據中挖掘出潛在的關聯關系?;蛘哒f,關聯分析是發(fā)現交易數據庫中不同商品(項)之間的聯系。比如,在著名的購物籃事務(market basket transactions)問題中,用戶在超市里購物數據如下:


IDItems
1牛奶,面包
2面包,尿布,啤酒,雞蛋
3面包,尿布,啤酒,可樂
4牛奶,面包,尿布,啤酒
5牛奶,面包,可樂,雞蛋


關聯分析則被用來找出此類規(guī)則:顧客在買了某種商品時也會買另一種商品。在上述例子中,有的關聯規(guī)則是很容易理解的比如:{牛奶}→{面包},此外我們還會挖掘出另外的某些規(guī)則: {尿布} → {啤酒};即顧客在買完尿布之后通常會買啤酒。后來通過調查分析,原來妻子囑咐丈夫給孩子買尿布時,丈夫在買完尿布后通常會買自己喜歡的啤酒。


但是,如何衡量這種關聯規(guī)則是否靠譜呢?我們需要如下指標來衡量。


支持度和置信度

我們想找出這樣的規(guī)律需要從兩個方面考慮:這個規(guī)律中的兩個商品頻繁出現,兩個商品關聯出現的概率較大。如果兩個商品不是頻繁出現的,那么有可能是小眾群體的個別需求。我們把兩個商品一起出現的概率稱為支持度。


如果有一個商品A出現的非常頻繁比如90%,而另一個商品B雖然跟A一起出現的概率很大,但是概率大的原因是A出現的太頻繁了,這也不能反映出其關聯關系,我們把A出現B則出現的條件概率稱為置信度

圖片 1.png


Apriori算法

Apriori算法就是為了快速的找到數據中關聯的頻繁集,我們用一個具體的案例來看看吧:假設我們有4種商品:商品0,商品1,商品2和商品3。那么所有可能被一起購買的商品組合都有哪些?這些商品組合可能只有一種商品,比如商品0,也可能包括兩種、三種或者所有四種商品。我們并不關心某人買了兩件商品0以及四件商品2的情況,我們只關心他購買了一種或多種商品。我們可以窮舉出該顧客購買商品所有可能的組合:


圖片 2.png


一個簡單粗暴的求解方法是:我們設定支持度和置信度的閾值——min_sup,min_cof,并算出每一個可能組合的支持度和置信度,把滿足要求的組合篩選出來。如果我們的商品很多,這個方法的計算量將呈指數的增長,是很難實現的。

定理:如果一個項集是頻繁的,那么其所有的子集(subsets)也一定是頻繁的。

這個定理顯而易見,假如{A,B,C}出現的概率大,那么{A,B},{C},出現的概率肯定也很大。這看上去沒什么用,其實它的逆反定理更有用。

逆反定理:如果一個項集是非頻繁的,那么其所有的超集(supersets)也一定是非頻繁的。

假如{A}出現的概率很小,那么{A,C},{A,B,C}出現的概率肯定也很小。根據這個逆反定理,我們可以排除很多不必要的計算。


圖片 3.png

比如我們發(fā)現{2,3}是非頻繁的,那么{0,2,3},{1,2,3},{0,1,2,3}肯定都是非頻繁的。就可以大大減少我們計算的復雜度。


Apriori算法流程

Apriori算法的目標是找到最大的K項頻繁集,這里有兩層意思,首先,我們要找到符合支持度標準的頻繁集。但是這樣的頻繁集可能有很多。當然我們可以根據上面的逆反定理減少頻繁集的計算范圍,第二層意思就是我們要找到最大個數的頻繁集。比如我們找到符合支持度的頻繁集AB和ABE,那么我們會拋棄AB,只保留ABE,因為AB是2項頻繁集,而ABE是3項頻繁集。那么具體的,Apriori算法是如何做到挖掘K項頻繁集的呢?我們可以看下面這個圖:


圖片 4.png


Apriori算法采用了迭代的方法,線設定支持度的閾值0.5,先搜索出候選1項集及對應的支持度C1,剪枝去掉低于支持度的1項集,也就是圖C1中的{4},得到頻繁1項集L1。然后對剩下的頻繁1項集進行連接,得到候選的頻繁2項集,篩選去掉低于支持度的候選頻繁2項集C2,也就是圖中C2的{1,2}和{1,5},得到真正的頻繁二項集L2,以此類推,迭代下去,直到無法找到頻繁k+1項集為止,對應的頻繁k項集的集合即為算法的輸出結果。也就是用戶的購物籃中,商品2,商品3,商品5常常一起購買。

總而言之,Apriori算法是一個非常經典的頻繁項集的挖掘算法,很多算法都借用了其算法的思想,并做出了改進,我們也將在格物匯之后的文章中進行分享。


本文作者:格創(chuàng)東智OT團隊(轉載請注明作者及來源)

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    靈巧手何以靈巧?晶振必不可少

    晶振雖小,卻是成就靈巧之手不可或缺的關鍵。
    的頭像 發(fā)表于 01-16 10:22 ?471次閱讀

    電網邊緣的智能化和可見性

    分析人士預測,到2050年,全球能源需求可能較當前水平增長逾兩倍1。 要在保持這一增長態(tài)勢的同時實現電網脫碳,全球必須將可再生能源的部署規(guī)模擴大9倍,并將電網效率提升一倍2。 因此,對涵蓋能源生產、分配、儲存和消費的全流程進行實時、整體的監(jiān)測和掌握,已不再是可有可無,而是
    的頭像 發(fā)表于 01-09 14:04 ?399次閱讀

    電能質量在線監(jiān)測裝置持暫降事件關聯分析嗎?

    現代電能質量在線監(jiān)測裝置普遍支持暫降事件關聯分析功能,這是其核心能力之一。 一、暫降事件關聯分析的定義與功能 暫降事件關聯
    的頭像 發(fā)表于 12-17 16:41 ?307次閱讀
    電能質量在線監(jiān)測裝置持暫降事件<b class='flag-5'>關聯</b><b class='flag-5'>分析</b>嗎?

    電能質量在線監(jiān)測裝置支持暫降事件關聯分析嗎?

    電能質量在線監(jiān)測裝置普遍支持暫降事件關聯分析 ,且功能覆蓋從基礎參數關聯到高級故障溯源的全流程分析能力,核心依據 DL/T 1227-2013、GB/T 30137-2024 等標準,
    的頭像 發(fā)表于 12-12 10:52 ?565次閱讀
    電能質量在線監(jiān)測裝置支持暫降事件<b class='flag-5'>關聯</b><b class='flag-5'>分析</b>嗎?

    為什么AGV是工業(yè)自動化必不可少?

    ? AGV 新一代工業(yè)革命愈演愈烈,越來越多的企業(yè)加入到智能制造的浪潮中。而在智能工廠中,物流達到智能化是最基礎的一個環(huán)節(jié),為此,一個智能的AGV系統(tǒng)至關重要。 AGV立庫 智能AGV自動化系統(tǒng)(Automated Guided Vehicle,簡稱AGV)是無人搬運車的英文縮寫,通常也稱為AGV小車,指裝備有電磁或光學等自動導引裝置,能夠沿規(guī)定的導引路徑行駛,具有安全保護以及各種移載功能的運輸車,工業(yè)應用中不需駕駛員的搬運車??赏ㄟ^電腦來控制其行進路線以及行為
    的頭像 發(fā)表于 10-17 16:58 ?605次閱讀
    為什么AGV是工業(yè)自動化<b class='flag-5'>必不可少</b>?

    如何應對負載的關聯性和動態(tài)變化?

    應對負載的關聯性(多負載相互影響)和動態(tài)變化(負載新增 / 老化 / 工藝調整),需建立 “關聯映射→動態(tài)監(jiān)測→聯動調整→持續(xù)優(yōu)化” 的閉環(huán)體系,核心是從 “孤立分析單負載” 轉向 “系統(tǒng)性管理負載
    的頭像 發(fā)表于 10-10 17:06 ?715次閱讀

    京東:調用用戶畫像API實現千人千面推薦,提升轉化率

    ? ?引言 在電商領域,個性化推薦已成為提升用戶粘性和轉化率的核心引擎。京東通過深度整合用戶畫像API,實現了"千人千面"的精準推薦系統(tǒng)。本文將解析其技術邏輯與業(yè)務價值,揭示如何通過數
    的頭像 發(fā)表于 09-12 15:08 ?932次閱讀
    京東:調用<b class='flag-5'>用戶</b><b class='flag-5'>畫像</b>API實現千人千面推薦,提升轉化率

    用小紅書電商 API 實現小紅書店鋪商品用戶畫像精準構建

    ? 在當今社交電商時代,小紅書作為領先的內容電商平臺,擁有海量用戶數據和商品信息。店鋪通過構建精準用戶畫像,能實現個性化推薦、提升轉化率和用戶
    的頭像 發(fā)表于 08-28 15:57 ?647次閱讀
    用小紅書電商 API 實現小紅書店鋪商品<b class='flag-5'>用戶</b><b class='flag-5'>畫像</b>精準<b class='flag-5'>構建</b>

    入行嵌入式應該怎么準備?

    架構、總線協議和存儲器管理等概念的理解也是必不可少的。 三、操作系統(tǒng)嵌入式系統(tǒng)通常需要運行一個實時操作系統(tǒng)(RTOS)或者一個精簡版的操作系統(tǒng)。熟悉RTOS的概念和使用方法,能夠編寫多任務和實時
    發(fā)表于 08-06 10:34

    還在憑感覺做畫像?GWI 利用大數據精準繪制核心客戶群

    當前企業(yè)構建客戶畫像常受限于滯后的人口統(tǒng)計數據和模糊標簽(如“都市年輕人”),導致營銷精準度不足。GWI 消費者洞察工具通過整合全球實時行為數據與AI分析能力(Spark),以四步法構建
    的頭像 發(fā)表于 07-29 13:28 ?731次閱讀
    還在憑感覺做<b class='flag-5'>畫像</b>?GWI 利用大數據精準繪制核心客戶群

    RK3128 Android 7.1 進入深度休眠流程分析

    RK3128 Android 7.1 進入深度休眠流程分析RK3128是瑞芯微電子推出的一款低功耗四核Cortex-A7處理器,運行Android 7.1系統(tǒng)時進入深度休眠(Deep Sleep
    發(fā)表于 07-22 10:45

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    多維異構數據進行智能關聯與融合分析。l 多階推理鏈:深度模擬專家診斷邏輯,構建“現象(如交易延遲)→ 推測(如網絡擁塞/丟包)→ 驗證(如流量回溯/指標
    發(fā)表于 07-16 15:29

    創(chuàng)智控激光焊縫跟蹤系統(tǒng)助力管道行業(yè)專機埋弧焊智能化升級

    在如今的工業(yè)制造領域,智能化和自動化成為提升效率和質量的重要力量,管道行業(yè)作為基礎設施建設的重要組成部分,焊接的智能化升級是必不可少的。面對傳統(tǒng)埋弧焊中存在的諸多挑戰(zhàn),創(chuàng)智控自主研發(fā)的激光焊縫跟蹤
    的頭像 發(fā)表于 06-20 10:48 ?581次閱讀
    創(chuàng)<b class='flag-5'>想</b>智控激光焊縫跟蹤系統(tǒng)助力管道行業(yè)專機埋弧焊智能化升級

    存儲示波器的存儲深度對信號分析有什么影響?

    存儲深度(Memory Depth)是數字示波器的核心參數之一,它直接決定了示波器在單次采集過程中能夠記錄的采樣點數量。存儲深度對信號分析的影響貫穿時域細節(jié)捕捉、頻域分析精度、觸發(fā)穩(wěn)定
    發(fā)表于 05-27 14:39

    HarmonyOS5云服務技術分享--賬號關聯開發(fā)指南

    等)。 ? 關聯賬號的3種姿勢(附代碼) 1?? 關聯手機號 用戶已登錄其他方式(如郵箱),綁定手機號: import auth from \'@hw-agconnect/auth
    發(fā)表于 05-22 16:53