91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

邏輯回歸與GBDT模型各自的原理及優(yōu)缺點(diǎn)

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:吳忠強(qiáng) ? 2020-12-26 10:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、GBDT+LR簡介

協(xié)同過濾和矩陣分解存在的劣勢就是僅利用了用戶與物品相互行為信息進(jìn)行推薦, 忽視了用戶自身特征, 物品自身特征以及上下文信息等,導(dǎo)致生成的結(jié)果往往會(huì)比較片面。而這次介紹的這個(gè)模型是2014年由Facebook提出的GBDT+LR模型, 該模型利用GBDT自動(dòng)進(jìn)行特征篩選和組合, 進(jìn)而生成新的離散特征向量, 再把該特征向量當(dāng)做LR模型的輸入, 來產(chǎn)生最后的預(yù)測結(jié)果, 該模型能夠綜合利用用戶、物品和上下文等多種不同的特征, 生成較為全面的推薦結(jié)果, 在CTR點(diǎn)擊率預(yù)估場景下使用較為廣泛。

下面首先會(huì)介紹邏輯回歸和GBDT模型各自的原理及優(yōu)缺點(diǎn), 然后介紹GBDT+LR模型的工作原理和細(xì)節(jié)。

232df6d4-4692-11eb-8b86-12bb97331649.jpg

二、邏輯回歸模型

邏輯回歸模型非常重要, 在推薦領(lǐng)域里面, 相比于傳統(tǒng)的協(xié)同過濾, 邏輯回歸模型能夠綜合利用用戶、物品、上下文等多種不同的特征生成較為“全面”的推薦結(jié)果, 關(guān)于邏輯回歸的更多細(xì)節(jié), 可以參考下面給出的鏈接,這里只介紹比較重要的一些細(xì)節(jié)和在推薦中的應(yīng)用。

邏輯回歸是在線性回歸的基礎(chǔ)上加了一個(gè) Sigmoid 函數(shù)(非線形)映射,使得邏輯回歸成為了一個(gè)優(yōu)秀的分類算法, 學(xué)習(xí)邏輯回歸模型, 首先應(yīng)該記住一句話:邏輯回歸假設(shè)數(shù)據(jù)服從伯努利分布,通過極大化似然函數(shù)的方法,運(yùn)用梯度下降來求解參數(shù),來達(dá)到將數(shù)據(jù)二分類的目的。

相比于協(xié)同過濾和矩陣分解利用用戶的物品“相似度”進(jìn)行推薦, 邏輯回歸模型將問題看成了一個(gè)分類問題, 通過預(yù)測正樣本的概率對(duì)物品進(jìn)行排序。這里的正樣本可以是用戶“點(diǎn)擊”了某個(gè)商品或者“觀看”了某個(gè)視頻, 均是推薦系統(tǒng)希望用戶產(chǎn)生的“正反饋”行為, 因此邏輯回歸模型將推薦問題轉(zhuǎn)化成了一個(gè)點(diǎn)擊率預(yù)估問題。而點(diǎn)擊率預(yù)測就是一個(gè)典型的二分類, 正好適合邏輯回歸進(jìn)行處理, 那么邏輯回歸是如何做推薦的呢?過程如下:

將用戶年齡、性別、物品屬性、物品描述、當(dāng)前時(shí)間、當(dāng)前地點(diǎn)等特征轉(zhuǎn)成數(shù)值型向量

確定邏輯回歸的優(yōu)化目標(biāo),比如把點(diǎn)擊率預(yù)測轉(zhuǎn)換成二分類問題, 這樣就可以得到分類問題常用的損失作為目標(biāo), 訓(xùn)練模型

在預(yù)測的時(shí)候, 將特征向量輸入模型產(chǎn)生預(yù)測, 得到用戶“點(diǎn)擊”物品的概率

利用點(diǎn)擊概率對(duì)候選物品排序, 得到推薦列表

推斷過程可以用下圖來表示:

240ee04a-4692-11eb-8b86-12bb97331649.png

這里的關(guān)鍵就是每個(gè)特征的權(quán)重參數(shù), 我們一般是使用梯度下降的方式, 首先會(huì)先隨機(jī)初始化參數(shù), 然后將特征向量(也就是我們上面數(shù)值化出來的特征)輸入到模型, 就會(huì)通過計(jì)算得到模型的預(yù)測概率, 然后通過對(duì)目標(biāo)函數(shù)求導(dǎo)得到每個(gè)的梯度, 然后進(jìn)行更新

這里的目標(biāo)函數(shù)長下面這樣:

求導(dǎo)之后的方式長這樣:

這樣通過若干次迭代, 就可以得到最終的了, 關(guān)于這些公式的推導(dǎo),可以參考下面給出的文章鏈接, 下面我們分析一下邏輯回歸模型的優(yōu)缺點(diǎn)。

優(yōu)點(diǎn):

LR模型形式簡單,可解釋性好,從特征的權(quán)重可以看到不同的特征對(duì)最后結(jié)果的影響。

訓(xùn)練時(shí)便于并行化,在預(yù)測時(shí)只需要對(duì)特征進(jìn)行線性加權(quán),所以性能比較好,往往適合處理海量id類特征,用id類特征有一個(gè)很重要的好處,就是防止信息損失(相對(duì)于范化的 CTR 特征),對(duì)于頭部資源會(huì)有更細(xì)致的描述

資源占用小,尤其是內(nèi)存。在實(shí)際的工程應(yīng)用中只需要存儲(chǔ)權(quán)重比較大的特征及特征對(duì)應(yīng)的權(quán)重。

方便輸出結(jié)果調(diào)整。邏輯回歸可以很方便的得到最后的分類結(jié)果,因?yàn)檩敵龅氖敲總€(gè)樣本的概率分?jǐn)?shù),我們可以很容易的對(duì)這些概率分?jǐn)?shù)進(jìn)行cutoff,也就是劃分閾值(大于某個(gè)閾值的是一類,小于某個(gè)閾值的是一類)

當(dāng)然, 邏輯回歸模型也有一定的局限性。

表達(dá)能力不強(qiáng), 無法進(jìn)行特征交叉, 特征篩選等一系列“高級(jí)“操作(這些工作都得人工來干, 這樣就需要一定的經(jīng)驗(yàn), 否則會(huì)走一些彎路), 因此可能造成信息的損失

準(zhǔn)確率并不是很高。因?yàn)檫@畢竟是一個(gè)線性模型加了個(gè)sigmoid, 形式非常的簡單(非常類似線性模型),很難去擬合數(shù)據(jù)的真實(shí)分布

處理非線性數(shù)據(jù)較麻煩。邏輯回歸在不引入其他方法的情況下,只能處理線性可分的數(shù)據(jù), 如果想處理非線性, 首先對(duì)連續(xù)特征的處理需要先進(jìn)行離散化(離散化的目的是為了引入非線性),如上文所說,人工分桶的方式會(huì)引入多種問題。

LR 需要進(jìn)行人工特征組合,這就需要開發(fā)者有非常豐富的領(lǐng)域經(jīng)驗(yàn),才能不走彎路。這樣的模型遷移起來比較困難,換一個(gè)領(lǐng)域又需要重新進(jìn)行大量的特征工程。

所以如何自動(dòng)發(fā)現(xiàn)有效的特征、特征組合,彌補(bǔ)人工經(jīng)驗(yàn)不足,縮短LR特征實(shí)驗(yàn)周期,是亟需解決的問題, 而GBDT模型, 正好可以自動(dòng)發(fā)現(xiàn)特征并進(jìn)行有效組合。注:在Datawhale公眾號(hào)后臺(tái)回復(fù)【數(shù)據(jù)項(xiàng)目】可進(jìn)項(xiàng)目專欄群,和作者等一起學(xué)習(xí)交流。

三、GBDT模型

GBDT全稱梯度提升決策樹,在傳統(tǒng)機(jī)器學(xué)習(xí)算法里面是對(duì)真實(shí)分布擬合的最好的幾種算法之一,在前幾年深度學(xué)習(xí)還沒有大行其道之前,gbdt在各種競賽是大放異彩。原因大概有幾個(gè),一是效果確實(shí)挺不錯(cuò)。二是即可以用于分類也可以用于回歸。三是可以篩選特征, 所以這個(gè)模型依然是一個(gè)非常重要的模型。

GBDT是通過采用加法模型(即基函數(shù)的線性組合),以及不斷減小訓(xùn)練過程產(chǎn)生的誤差來達(dá)到將數(shù)據(jù)分類或者回歸的算法, 其訓(xùn)練過程如下:

26afd6c4-4692-11eb-8b86-12bb97331649.png

gbdt通過多輪迭代, 每輪迭代會(huì)產(chǎn)生一個(gè)弱分類器, 每個(gè)分類器在上一輪分類器的殘差基礎(chǔ)上進(jìn)行訓(xùn)練。gbdt對(duì)弱分類器的要求一般是足夠簡單, 并且低方差高偏差。因?yàn)橛?xùn)練的過程是通過降低偏差來不斷提高最終分類器的精度。由于上述高偏差和簡單的要求,每個(gè)分類回歸樹的深度不會(huì)很深。最終的總分類器是將每輪訓(xùn)練得到的弱分類器加權(quán)求和得到的(也就是加法模型)。

關(guān)于GBDT的詳細(xì)細(xì)節(jié),依然是可以參考下面給出的鏈接。這里想分析一下GBDT如何來進(jìn)行二分類的,因?yàn)槲覀円鞔_一點(diǎn)就是gbdt 每輪的訓(xùn)練是在上一輪的訓(xùn)練的殘差基礎(chǔ)之上進(jìn)行訓(xùn)練的, 而這里的殘差指的就是當(dāng)前模型的負(fù)梯度值, 這個(gè)就要求每輪迭代的時(shí)候,弱分類器的輸出的結(jié)果相減是有意義的, 而gbdt 無論用于分類還是回歸一直都是使用的CART 回歸樹, 那么既然是回歸樹, 是如何進(jìn)行二分類問題的呢?

GBDT 來解決二分類問題和解決回歸問題的本質(zhì)是一樣的,都是通過不斷構(gòu)建決策樹的方式,使預(yù)測結(jié)果一步步的接近目標(biāo)值, 但是二分類問題和回歸問題的損失函數(shù)是不同的, 關(guān)于GBDT在回歸問題上的樹的生成過程, 損失函數(shù)和迭代原理可以參考給出的鏈接, 回歸問題中一般使用的是平方損失, 而二分類問題中, GBDT和邏輯回歸一樣, 使用的下面這個(gè):

其中,是第個(gè)樣本的觀測值, 取值要么是0要么是1, 而是第個(gè)樣本的預(yù)測值, 取值是0-1之間的概率,由于我們知道GBDT擬合的殘差是當(dāng)前模型的負(fù)梯度, 那么我們就需要求出這個(gè)模型的導(dǎo)數(shù), 即, 對(duì)于某個(gè)特定的樣本, 求導(dǎo)的話就可以只考慮它本身, 去掉加和號(hào), 那么就變成了, 其中如下:

如果對(duì)邏輯回歸非常熟悉的話, 一定不會(huì)陌生吧, 這就是對(duì)幾率比取了個(gè)對(duì)數(shù), 并且在邏輯回歸里面這個(gè)式子會(huì)等于, 所以才推出了的那個(gè)形式。這里令, 即, 則上面這個(gè)式子變成了:

這時(shí)候,我們對(duì)求導(dǎo), 得

這樣, 我們就得到了某個(gè)訓(xùn)練樣本在當(dāng)前模型的梯度值了, 那么殘差就是。GBDT二分類的這個(gè)思想,其實(shí)和邏輯回歸的思想一樣,邏輯回歸是用一個(gè)線性模型去擬合這個(gè)事件的對(duì)數(shù)幾率, GBDT二分類也是如此, 用一系列的梯度提升樹去擬合這個(gè)對(duì)數(shù)幾率, 其分類模型可以表達(dá)為:

下面我們具體來看GBDT的生成過程, 構(gòu)建分類GBDT的步驟有兩個(gè):

1. 初始化GBDT

和回歸問題一樣, 分類 GBDT 的初始狀態(tài)也只有一個(gè)葉子節(jié)點(diǎn),該節(jié)點(diǎn)為所有樣本的初始預(yù)測值,如下:

上式里面,代表GBDT模型,是模型的初識(shí)狀態(tài), 該式子的意思是找到一個(gè),使所有樣本的 Loss 最小,在這里及下文中,都表示節(jié)點(diǎn)的輸出,即葉子節(jié)點(diǎn), 且它是一個(gè)形式的值(回歸值),在初始狀態(tài),。

下面看例子(該例子來自下面的第二個(gè)鏈接), 假設(shè)我們有下面3條樣本:

2b9ef5fc-4692-11eb-8b86-12bb97331649.png

我們希望構(gòu)建 GBDT 分類樹,它能通過「喜歡爆米花」、「年齡」和「顏色偏好」這 3 個(gè)特征來預(yù)測某一個(gè)樣本是否喜歡看電影。我們把數(shù)據(jù)代入上面的公式中求Loss: 為了令其最小, 我們求導(dǎo), 且讓導(dǎo)數(shù)為0, 則:

于是, 就得到了初始值, 模型的初識(shí)狀態(tài)

2. 循環(huán)生成決策樹

這里回憶一下回歸樹的生成步驟, 其實(shí)有4小步, 第一就是計(jì)算負(fù)梯度值得到殘差, 第二步是用回歸樹擬合殘差, 第三步是計(jì)算葉子節(jié)點(diǎn)的輸出值, 第四步是更新模型。下面我們一一來看:

計(jì)算負(fù)梯度得到殘差:

此處使用棵樹的模型, 計(jì)算每個(gè)樣本的殘差, 就是上面的, 于是例子中, 每個(gè)樣本的殘差:

2d670aa0-4692-11eb-8b86-12bb97331649.png

使用回歸樹來擬合, 這里的表示樣本哈,回歸樹的建立過程可以參考下面的鏈接文章,簡單的說就是遍歷每個(gè)特征, 每個(gè)特征下遍歷每個(gè)取值, 計(jì)算分裂后兩組數(shù)據(jù)的平方損失, 找到最小的那個(gè)劃分節(jié)點(diǎn)。假如我們產(chǎn)生的第2棵決策樹如下:

2df3c774-4692-11eb-8b86-12bb97331649.png

對(duì)于每個(gè)葉子節(jié)點(diǎn), 計(jì)算最佳殘差擬合值

意思是, 在剛構(gòu)建的樹中, 找到每個(gè)節(jié)點(diǎn)的輸出, 能使得該節(jié)點(diǎn)的loss最小。那么我們看一下這個(gè)的求解方式, 這里非常的巧妙。首先, 我們把損失函數(shù)寫出來, 對(duì)于左邊的第一個(gè)樣本, 有

這個(gè)式子就是上面推導(dǎo)的, 因?yàn)槲覀円没貧w樹做分類, 所以這里把分類的預(yù)測概率轉(zhuǎn)換成了對(duì)數(shù)幾率回歸的形式, 即, 這個(gè)就是模型的回歸輸出值。而如果求這個(gè)損失的最小值, 我們要求導(dǎo), 解出令損失最小的。但是上面這個(gè)式子求導(dǎo)會(huì)很麻煩, 所以這里介紹了一個(gè)技巧就是使用二階泰勒公式來近似表示該式, 再求導(dǎo), 還記得偉大的泰勒嗎?

這里就相當(dāng)于把當(dāng)做常量,作為變量, 將二階展開:

這時(shí)候再求導(dǎo)就簡單了

Loss最小的時(shí)候, 上面的式子等于0, 就可以得到:

因?yàn)榉肿泳褪菤埐?上述已經(jīng)求到了), 分母可以通過對(duì)殘差求導(dǎo),得到原損失函數(shù)的二階導(dǎo):

這時(shí)候, 就可以算出該節(jié)點(diǎn)的輸出:

這里的下面表示第棵樹的第個(gè)葉子節(jié)點(diǎn)。接下來是右邊節(jié)點(diǎn)的輸出, 包含樣本2和樣本3, 同樣使用二階泰勒公式展開:

求導(dǎo), 令其結(jié)果為0,就會(huì)得到, 第1棵樹的第2個(gè)葉子節(jié)點(diǎn)的輸出:

可以看出, 對(duì)于任意葉子節(jié)點(diǎn), 我們可以直接計(jì)算其輸出值:

最后,更新模型:

這樣, 通過多次循環(huán)迭代, 就可以得到一個(gè)比較強(qiáng)的學(xué)習(xí)器。

下面分析一下GBDT的優(yōu)缺點(diǎn):

我們可以把樹的生成過程理解成自動(dòng)進(jìn)行多維度的特征組合的過程,從根結(jié)點(diǎn)到葉子節(jié)點(diǎn)上的整個(gè)路徑(多個(gè)特征值判斷),才能最終決定一棵樹的預(yù)測值, 另外,對(duì)于連續(xù)型特征的處理,GBDT 可以拆分出一個(gè)臨界閾值,比如大于 0.027 走左子樹,小于等于 0.027(或者 default 值)走右子樹,這樣很好的規(guī)避了人工離散化的問題。這樣就非常輕松的解決了邏輯回歸那里自動(dòng)發(fā)現(xiàn)特征并進(jìn)行有效組合的問題, 這也是GBDT的優(yōu)勢所在。

但是GBDT也會(huì)有一些局限性, 對(duì)于海量的 id 類特征,GBDT 由于樹的深度和棵樹限制(防止過擬合),不能有效的存儲(chǔ);另外海量特征在也會(huì)存在性能瓶頸,當(dāng) GBDT 的 one hot 特征大于 10 萬維時(shí),就必須做分布式的訓(xùn)練才能保證不爆內(nèi)存。所以 GBDT 通常配合少量的反饋 CTR 特征來表達(dá),這樣雖然具有一定的范化能力,但是同時(shí)會(huì)有信息損失,對(duì)于頭部資源不能有效的表達(dá)。

所以, 我們發(fā)現(xiàn)其實(shí)GBDT和LR的優(yōu)缺點(diǎn)可以進(jìn)行互補(bǔ)。

四、GBDT+LR模型

2014年, Facebook提出了一種利用GBDT自動(dòng)進(jìn)行特征篩選和組合, 進(jìn)而生成新的離散特征向量, 再把該特征向量當(dāng)做LR模型的輸入, 來產(chǎn)生最后的預(yù)測結(jié)果, 這就是著名的GBDT+LR模型了。GBDT+LR 使用最廣泛的場景是CTR點(diǎn)擊率預(yù)估,即預(yù)測當(dāng)給用戶推送的廣告會(huì)不會(huì)被用戶點(diǎn)擊。

有了上面的鋪墊, 這個(gè)模型解釋起來就比較容易了, 模型的總體結(jié)構(gòu)長下面這樣:

3238c1fe-4692-11eb-8b86-12bb97331649.png

訓(xùn)練時(shí),GBDT 建樹的過程相當(dāng)于自動(dòng)進(jìn)行的特征組合和離散化,然后從根結(jié)點(diǎn)到葉子節(jié)點(diǎn)的這條路徑就可以看成是不同特征進(jìn)行的特征組合,用葉子節(jié)點(diǎn)可以唯一的表示這條路徑,并作為一個(gè)離散特征傳入 LR 進(jìn)行二次訓(xùn)練。

比如上圖中, 有兩棵樹,x為一條輸入樣本,遍歷兩棵樹后,x樣本分別落到兩顆樹的葉子節(jié)點(diǎn)上,每個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)LR一維特征,那么通過遍歷樹,就得到了該樣本對(duì)應(yīng)的所有LR特征。構(gòu)造的新特征向量是取值0/1的。比如左樹有三個(gè)葉子節(jié)點(diǎn),右樹有兩個(gè)葉子節(jié)點(diǎn),最終的特征即為五維的向量。對(duì)于輸入x,假設(shè)他落在左樹第二個(gè)節(jié)點(diǎn),編碼[0,1,0],落在右樹第二個(gè)節(jié)點(diǎn)則編碼[0,1],所以整體的編碼為[0,1,0,0,1],這類編碼作為特征,輸入到線性分類模型(LR or FM)中進(jìn)行分類。

預(yù)測時(shí),會(huì)先走 GBDT 的每棵樹,得到某個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)的一個(gè)離散特征(即一組特征組合),然后把該特征以 one-hot 形式傳入 LR 進(jìn)行線性加權(quán)預(yù)測。

這個(gè)方案應(yīng)該比較簡單了, 下面有幾個(gè)關(guān)鍵的點(diǎn)我們需要了解:

通過GBDT進(jìn)行特征組合之后得到的離散向量是和訓(xùn)練數(shù)據(jù)的原特征一塊作為邏輯回歸的輸入, 而不僅僅全是這種離散特征

建樹的時(shí)候用ensemble建樹的原因就是一棵樹的表達(dá)能力很弱,不足以表達(dá)多個(gè)有區(qū)分性的特征組合,多棵樹的表達(dá)能力更強(qiáng)一些。GBDT每棵樹都在學(xué)習(xí)前面棵樹尚存的不足,迭代多少次就會(huì)生成多少棵樹。

RF也是多棵樹,但從效果上有實(shí)踐證明不如GBDT。且GBDT前面的樹,特征分裂主要體現(xiàn)對(duì)多數(shù)樣本有區(qū)分度的特征;后面的樹,主要體現(xiàn)的是經(jīng)過前N顆樹,殘差仍然較大的少數(shù)樣本。優(yōu)先選用在整體上有區(qū)分度的特征,再選用針對(duì)少數(shù)樣本有區(qū)分度的特征,思路更加合理,這應(yīng)該也是用GBDT的原因。

在CRT預(yù)估中, GBDT一般會(huì)建立兩類樹(非ID特征建一類, ID類特征建一類), AD,ID類特征在CTR預(yù)估中是非常重要的特征,直接將AD,ID作為feature進(jìn)行建樹不可行,故考慮為每個(gè)AD,ID建GBDT樹。

非ID類樹:不以細(xì)粒度的ID建樹,此類樹作為base,即便曝光少的廣告、廣告主,仍可以通過此類樹得到有區(qū)分性的特征、特征組合

ID類樹:以細(xì)粒度 的ID建一類樹,用于發(fā)現(xiàn)曝光充分的ID對(duì)應(yīng)有區(qū)分性的特征、特征組合。

五、編程實(shí)踐

下面我們通過kaggle上的一個(gè)ctr預(yù)測的比賽來看一下GBDT+LR模型部分的編程實(shí)踐, 數(shù)據(jù)來源:https://github.com/zhongqiangwu960812/AI-RecommenderSystem/tree/master/GBDT%2BLR/data

我們回顧一下上面的模型架構(gòu), 首先是要訓(xùn)練GBDT模型, GBDT的實(shí)現(xiàn)一般可以使用xgboost, 或者lightgbm。訓(xùn)練完了GBDT模型之后, 我們需要預(yù)測出每個(gè)樣本落在了哪棵樹上的哪個(gè)節(jié)點(diǎn)上, 然后通過one-hot就會(huì)得到一些新的離散特征, 這和原來的特征進(jìn)行合并組成新的數(shù)據(jù)集, 然后作為邏輯回歸的輸入,最后通過邏輯回歸模型得到結(jié)果。

根據(jù)上面的步驟, 我們看看代碼如何實(shí)現(xiàn):

假設(shè)我們已經(jīng)有了處理好的數(shù)據(jù)x_train, y_train。

1. 訓(xùn)練GBDT模型

GBDT模型的搭建我們可以通過XGBOOST, lightgbm等進(jìn)行構(gòu)建。比如:

pIYBAF_mme2AGeG0AAAxU-u4-o8792.jpg

o4YBAF_mmfOAJ9ZwAAAteawc3CI784.jpg

2. 特征轉(zhuǎn)換并構(gòu)建新的數(shù)據(jù)集

通過上面我們建立好了一個(gè)gbdt模型, 我們接下來要用它來預(yù)測出樣本會(huì)落在每棵樹的哪個(gè)葉子節(jié)點(diǎn)上, 為后面的離散特征構(gòu)建做準(zhǔn)備, 由于不是用gbdt預(yù)測結(jié)果而是預(yù)測訓(xùn)練數(shù)據(jù)在每棵樹上的具體位置, 就需要用到下面的語句:

o4YBAF_mmhmAPBZmAACPXK7oRpw682.jpg

pIYBAF_mmiCAIhwzAAAylOL1Jzc402.jpg

3. 離散特征的獨(dú)熱編碼,并劃分?jǐn)?shù)據(jù)集

o4YBAF_mmjWAKvjOAABvsGDyaa4513.jpg

4. 訓(xùn)練邏輯回歸模型作最后的預(yù)測

pIYBAF_mmkmANt4kAABXgjNn-Pw033.jpg

上面我們就完成了GBDT+LR模型的基本訓(xùn)練步驟, 具體詳細(xì)的代碼可以參考鏈接。

六、課后思考

為什么使用集成的決策樹?為什么使用GBDT構(gòu)建決策樹而不是隨機(jī)森林?

面對(duì)高維稀疏類特征的時(shí)候(比如ID類特征), 邏輯回歸一般要比GBDT這種非線性模型好, 為什么?

參考資料

王喆 - 《深度學(xué)習(xí)推薦系統(tǒng)》

決策樹之 GBDT 算法 - 分類部分

深入理解GBDT二分類算法

邏輯回歸、優(yōu)化算法和正則化的幕后細(xì)節(jié)補(bǔ)充

梯度提升樹GBDT的理論學(xué)習(xí)與細(xì)節(jié)補(bǔ)充

推薦系統(tǒng)遇上深度學(xué)習(xí)(十)--GBDT+LR融合方案實(shí)戰(zhàn)

CTR預(yù)估中GBDT與LR融合方案

GBDT+LR算法解析及Python實(shí)現(xiàn)

常見計(jì)算廣告點(diǎn)擊率預(yù)估算法總結(jié)

GBDT--分類篇

論文

http://quinonero.net/Publications/predicting-clicks-facebook.pdf

Predicting Clicks: Estimating the Click-Through Rate for New Ads

Greedy Fun tion Approximation : A Gradient Boosting

責(zé)任編輯:xj

原文標(biāo)題:邏輯回歸 + GBDT模型融合實(shí)戰(zhàn)!

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • LR
    LR
    +關(guān)注

    關(guān)注

    1

    文章

    8

    瀏覽量

    10375
  • GBDT
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    4205

原文標(biāo)題:邏輯回歸 + GBDT模型融合實(shí)戰(zhàn)!

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    三防漆稀釋劑替代品對(duì)比:優(yōu)缺點(diǎn)+環(huán)保選擇 |鉻銳特實(shí)業(yè)

    鉻銳特實(shí)業(yè)|東莞廠家|三防漆稀釋劑能用什么替代?本文對(duì)比原裝稀釋劑、環(huán)保無苯型、醋酸丁酯、PMA等常見替代品的優(yōu)缺點(diǎn)、成本與性能影響,附行業(yè)數(shù)據(jù)和選擇建議,助您兼顧品質(zhì)與成本。
    的頭像 發(fā)表于 02-26 00:12 ?92次閱讀
    三防漆稀釋劑替代品對(duì)比:<b class='flag-5'>優(yōu)缺點(diǎn)</b>+環(huán)保選擇 |鉻銳特實(shí)業(yè)

    對(duì)比分析電能質(zhì)量在線監(jiān)測裝置支持的斷點(diǎn)續(xù)傳文件傳輸協(xié)議的優(yōu)缺點(diǎn)

    優(yōu)缺點(diǎn)對(duì)比分析: 一、各協(xié)議優(yōu)缺點(diǎn)逐一拆解 1. FTP(文件傳輸協(xié)議) 優(yōu)點(diǎn) 斷點(diǎn)續(xù)傳機(jī)制成熟 :依托REST命令可精準(zhǔn)定位字節(jié)偏移量,支持大文件分塊續(xù)傳,且內(nèi)置 CRC 校驗(yàn)保障數(shù)據(jù)完整性,是裝置的基礎(chǔ)標(biāo)配功能,適配性強(qiáng)。 傳輸效率高 :無加密運(yùn)算損耗,傳輸速率
    的頭像 發(fā)表于 12-05 17:49 ?3403次閱讀
    對(duì)比分析電能質(zhì)量在線監(jiān)測裝置支持的斷點(diǎn)續(xù)傳文件傳輸協(xié)議的<b class='flag-5'>優(yōu)缺點(diǎn)</b>

    UV三防漆的優(yōu)缺點(diǎn)大起底!是效率神器還是局限陷阱?

    ?UV三防漆以其“秒干”的黑科技聞名于電子制造圈,但它真的是完美無缺的嗎?任何材料的選擇都是一場權(quán)衡。本文將徹底剖析UV三防漆的優(yōu)缺點(diǎn),幫助您精準(zhǔn)判斷:它究竟是提升您生產(chǎn)效率的利器,還是可能帶來麻煩的“嬌氣”選手?
    的頭像 發(fā)表于 11-15 17:22 ?474次閱讀
    UV三防漆的<b class='flag-5'>優(yōu)缺點(diǎn)</b>大起底!是效率神器還是局限陷阱?

    工業(yè)級(jí)SLC SD NAND存儲(chǔ)的優(yōu)缺點(diǎn)

    工業(yè)級(jí) SLC?存儲(chǔ)卡與存儲(chǔ)芯片的優(yōu)缺點(diǎn): ? 核心特點(diǎn)與適用場景 ? ? 可靠性與壽命 ?:SLC(單層單元)每單元僅存1 bit,典型P/E?擦寫壽命約 10?萬次,遠(yuǎn)高于 MLC/TLC,適合
    的頭像 發(fā)表于 10-17 11:09 ?750次閱讀
    工業(yè)級(jí)SLC SD NAND存儲(chǔ)的<b class='flag-5'>優(yōu)缺點(diǎn)</b>

    無線局域網(wǎng)的優(yōu)缺點(diǎn)和使用要點(diǎn)

    近年來,無線局域網(wǎng) 已普遍應(yīng)用于我們生活的方方面面。本文將介紹無線局域網(wǎng)的基礎(chǔ)知識(shí)、優(yōu)缺點(diǎn)、與 Wi-Fi 及有線局域網(wǎng)的區(qū)別,以及有效使用的要點(diǎn)。全球領(lǐng)先的短距離無線模塊供應(yīng)商 KAGA FEI
    的頭像 發(fā)表于 08-14 16:04 ?2969次閱讀
    無線局域網(wǎng)的<b class='flag-5'>優(yōu)缺點(diǎn)</b>和使用要點(diǎn)

    超級(jí)電容對(duì)比鋰電池的優(yōu)缺點(diǎn)

    本文探討了超級(jí)電容和鋰電池在儲(chǔ)能領(lǐng)域的優(yōu)缺點(diǎn)。超級(jí)電容以高能量密度著稱,但充電速度較慢;鋰電池則具有快充和壽命長的優(yōu)勢,但成本較高。在新能源汽車和電網(wǎng)調(diào)頻等高頻次應(yīng)用中,兩者可以互補(bǔ)。
    的頭像 發(fā)表于 06-30 09:37 ?2636次閱讀
    超級(jí)電容對(duì)比鋰電池的<b class='flag-5'>優(yōu)缺點(diǎn)</b>

    商業(yè)云手機(jī)核心優(yōu)缺點(diǎn)分析

    商業(yè)云手機(jī)核心優(yōu)缺點(diǎn)分析,綜合技術(shù)性能、成本效率及場景適配性等多維度對(duì)比: 核心優(yōu)勢? 成本革命? 硬件零投入?:免除實(shí)體手機(jī)采購(旗艦機(jī)均價(jià)6000元),企業(yè)百臺(tái)規(guī)??墒?0萬+ CAPEX
    的頭像 發(fā)表于 06-16 08:11 ?1033次閱讀
    商業(yè)云手機(jī)核心<b class='flag-5'>優(yōu)缺點(diǎn)</b>分析

    PCBA 表面處理:優(yōu)缺點(diǎn)大揭秘,應(yīng)用場景全解析

    一站式PCBA加工廠家今天為大家講講PCBA加工如何選擇合適的表面處理工藝?PCBA表面處理優(yōu)缺點(diǎn)與應(yīng)用場景。在電子制造中,PCBA板的表面處理工藝對(duì)電路板的性能、可靠性和成本都有重要影響。選擇合適
    的頭像 發(fā)表于 05-05 09:39 ?1398次閱讀
    PCBA 表面處理:<b class='flag-5'>優(yōu)缺點(diǎn)</b>大揭秘,應(yīng)用場景全解析

    3D打印耗材種類有哪些?各有什么優(yōu)缺點(diǎn)?

    這篇文章將為你詳細(xì)介紹3D打印耗材的基礎(chǔ)知識(shí),幫助你了解這些材料的特性、優(yōu)缺點(diǎn)以及它們適合的應(yīng)用場景。
    的頭像 發(fā)表于 04-29 09:40 ?5.3w次閱讀
    3D打印耗材種類有哪些?各有什么<b class='flag-5'>優(yōu)缺點(diǎn)</b>?

    傳感器的模擬輸出和數(shù)字輸出的優(yōu)缺點(diǎn)分析

    在現(xiàn)代自動(dòng)化控制和監(jiān)測系統(tǒng)中,傳感器的輸出方式主要分為模擬輸出和數(shù)字輸出兩種,它們各自具有獨(dú)特的優(yōu)缺點(diǎn),在不同的應(yīng)用場景中有著不同的適用性。深入了解這兩種輸出方式的特點(diǎn),對(duì)于正確選擇和使用傳感器
    的頭像 發(fā)表于 04-17 18:28 ?1400次閱讀
    傳感器的模擬輸出和數(shù)字輸出的<b class='flag-5'>優(yōu)缺點(diǎn)</b>分析

    CMOS,Bipolar,F(xiàn)ET這三種工藝的優(yōu)缺點(diǎn)是什么?

    在我用photodiode工具選型I/V放大電路的時(shí)候,系統(tǒng)給我推薦了AD8655用于I/V,此芯片為CMOS工藝 但是查閱資料很多都是用FET工藝的芯片,所以請(qǐng)教下用于光電信號(hào)放大轉(zhuǎn)換(主要考慮信噪比和帶寬)一般我們用哪種工藝的芯片, CMOS,Bipolar,F(xiàn)ET這三種工藝的優(yōu)缺點(diǎn)是什么?
    發(fā)表于 03-25 06:23

    功率放大器的類型及優(yōu)缺點(diǎn)是什么

    優(yōu)缺點(diǎn)。 A類功率放大器:A類功率放大器是最簡單的一種類型,其輸出信號(hào)與輸入信號(hào)完全相同,沒有任何失真。這使得A類功率放大器在音頻放大等對(duì)信號(hào)質(zhì)量要求較高的場合中得到廣泛應(yīng)用。然而,A類功率放大器的效率較低,
    的頭像 發(fā)表于 03-24 11:00 ?1126次閱讀
    功率放大器的類型及<b class='flag-5'>優(yōu)缺點(diǎn)</b>是什么

    壓接連接器使用裸銅線的優(yōu)缺點(diǎn)分析?

    壓接連接器使用裸銅線是一種高效、可靠的電氣連接方式,廣泛應(yīng)用于電力、通信和工業(yè)領(lǐng)域。需要我們正確看待它的優(yōu)缺點(diǎn),高效使用。
    的頭像 發(fā)表于 03-18 11:01 ?1165次閱讀

    液壓伺服系統(tǒng)工作原理液及優(yōu)缺點(diǎn)

    液壓伺服系統(tǒng)是一種通過調(diào)節(jié)液壓元件的流量和壓力來實(shí)現(xiàn)對(duì)負(fù)載的位置、速度和力的精確控制的系統(tǒng)。以下是對(duì)其工作原理及優(yōu)缺點(diǎn)的詳細(xì)分析: 一、工作原理 液壓伺服系統(tǒng)的工作原理主要分為兩個(gè)階段:感應(yīng)階段
    的頭像 發(fā)表于 03-16 16:43 ?1612次閱讀
    液壓伺服系統(tǒng)工作原理液及<b class='flag-5'>優(yōu)缺點(diǎn)</b>

    淺談汽車系統(tǒng)電壓優(yōu)缺點(diǎn)分析

    以下是12V、24V、48V系統(tǒng)的簡單介紹,包括技術(shù)特點(diǎn)、優(yōu)缺點(diǎn)及典型應(yīng)用場景。汽車電氣系統(tǒng)的發(fā)展隨著車輛電子設(shè)備的增多和對(duì)能效要求的提高,電壓等級(jí)也在逐步提升,從傳統(tǒng)的12V電
    的頭像 發(fā)表于 03-06 08:04 ?1791次閱讀
    淺談汽車系統(tǒng)電壓<b class='flag-5'>優(yōu)缺點(diǎn)</b>分析