91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GBDT是如何用于分類(lèi)的

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2020-12-26 10:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

? 因?yàn)橛脴?shù)模型太習(xí)以為常了,以至于看到這個(gè)標(biāo)題很容易覺(jué)得這很顯然。但越簡(jiǎn)單的東西越容易出現(xiàn)知識(shí)盲區(qū),仔細(xì)想一下好像確實(shí)有點(diǎn)疑問(wèn):GBDT 用的是回歸樹(shù),是如何做的分類(lèi)呢? - 作者:1直在路上1 -https://www.cnblogs.com/always-fight/p/9400346.html 編輯:阿澤的學(xué)習(xí)筆記 ?

一 簡(jiǎn)介

GBDT 在傳統(tǒng)機(jī)器學(xué)習(xí)算法里面是對(duì)真實(shí)分布擬合的最好的幾種算法之一,在前幾年深度學(xué)習(xí)還沒(méi)有大行其道之前,GBDT 在各種競(jìng)賽是大放異彩。原因大概有幾個(gè)

效果確實(shí)挺不錯(cuò);

既可以用于分類(lèi)也可以用于回歸;

可以篩選特征。

這三點(diǎn)實(shí)在是太吸引人了,導(dǎo)致在面試的時(shí)候大家也非常喜歡問(wèn)這個(gè)算法。

GBDT 是通過(guò)采用加法模型(即基函數(shù)的線(xiàn)性組合),以及不斷減小訓(xùn)練過(guò)程產(chǎn)生的殘差來(lái)達(dá)到將數(shù)據(jù)分類(lèi)或者回歸的算法。

GBDT 通過(guò)多輪迭代,每輪迭代產(chǎn)生一個(gè)弱分類(lèi)器,每個(gè)分類(lèi)器在上一輪分類(lèi)器的殘差基礎(chǔ)上進(jìn)行訓(xùn)練。對(duì)弱分類(lèi)器的要求一般是足夠簡(jiǎn)單,并且是低方差和高偏差的。因?yàn)橛?xùn)練的過(guò)程是通過(guò)降低偏差來(lái)不斷提高最終分類(lèi)器的精度。

二 GBDT如何用于分類(lèi)的

第一步:「訓(xùn)練的時(shí)候,是針對(duì)樣本 X 每個(gè)可能的類(lèi)都訓(xùn)練一個(gè)分類(lèi)回歸樹(shù)」。如目前的訓(xùn)練集共有三類(lèi),即 K = 3,樣本 x 屬于第二類(lèi),那么針對(duì)樣本x的分類(lèi)結(jié)果,我們可以用一個(gè)三維向量 [0,1,0] 來(lái)表示,0 表示不屬于該類(lèi),1 表示屬于該類(lèi),由于樣本已經(jīng)屬于第二類(lèi)了,所以第二類(lèi)對(duì)應(yīng)的向量維度為 1,其他位置為 0。

針對(duì)樣本有三類(lèi)的情況,我們實(shí)質(zhì)上是在每輪的訓(xùn)練的時(shí)候是同時(shí)訓(xùn)練三顆樹(shù)。第一顆樹(shù)針對(duì)樣本 x 的第一類(lèi),輸入是 ,第二顆樹(shù)針對(duì)樣本x的第二類(lèi),輸入是 ,第三顆樹(shù)針對(duì)樣本x的第三類(lèi),輸入是 。

在對(duì)樣本 x 訓(xùn)練后產(chǎn)生三顆樹(shù),對(duì) x 類(lèi)別的預(yù)測(cè)值分別是 ,那么在此類(lèi)訓(xùn)練中,樣本 x 屬于第一類(lèi),第二類(lèi),第三類(lèi)的概率分別是:

然后可以求出針對(duì)第一類(lèi),第二類(lèi),第三類(lèi)的殘差分別是:

然后開(kāi)始第二輪訓(xùn)練,針對(duì)第一類(lèi)輸入為 ,針對(duì)第二類(lèi)輸入為 ,針對(duì)第三類(lèi)輸入為 ,繼續(xù)訓(xùn)練出三顆樹(shù)。一直迭代M輪,每輪構(gòu)建三棵樹(shù)當(dāng)訓(xùn)練完畢以后,新來(lái)一個(gè)樣本 ,我們需要預(yù)測(cè)該樣本的類(lèi)別的時(shí)候,便產(chǎn)生三個(gè)值 ,則樣本屬于某個(gè)類(lèi)別 c 的概率為:

三 GBDT多分類(lèi)舉例說(shuō)明

下面以 Iris 數(shù)據(jù)集的六個(gè)數(shù)據(jù)為例來(lái)展示 GBDT 多分類(lèi)的過(guò)程

d248a150-4692-11eb-8b86-12bb97331649.png

具體應(yīng)用到 gbdt 多分類(lèi)算法。我們用一個(gè)三維向量來(lái)標(biāo)志樣本的 label,[1,0,0] 表示樣本屬于山鳶尾,[0,1,0] 表示樣本屬于雜色鳶尾,[0,0,1] 表示屬于維吉尼亞鳶尾。

gbdt 的多分類(lèi)是針對(duì)每個(gè)類(lèi)都獨(dú)立訓(xùn)練一個(gè) CART Tree。所以這里,我們將針對(duì)山鳶尾類(lèi)別訓(xùn)練一個(gè) CART Tree 1。雜色鳶尾訓(xùn)練一個(gè) CART Tree 2 。維吉尼亞鳶尾訓(xùn)練一個(gè)CART Tree 3,這三個(gè)樹(shù)相互獨(dú)立。

我們以樣本 1 為例:

針對(duì) CART Tree1 的訓(xùn)練樣本是 [5.1,3.5,1.4,0.2],label 是 1,模型輸入為 [5.1, 3.5, 1.4, 0.2, 1]

針對(duì) CART Tree2 的訓(xùn)練樣本是 [5.1,3.5,1.4,0.2],label 是 0,模型輸入為 [5.1, 3.5, 1.4, 0.2, 0]

針對(duì) CART Tree3 的訓(xùn)練樣本是 [5.1,3.5,1.4,0.2],label 是 0,模型輸入為[5.1, 3.5, 1.4, 0.2, 0]

下面我們來(lái)看 CART Tree1 是如何生成的,其他樹(shù) CART Tree2 , CART Tree 3 的生成方式是一樣的。CART Tree 的生成過(guò)程是從這四個(gè)特征中找一個(gè)特征做為 CART Tree1 的節(jié)點(diǎn)。

比如花萼長(zhǎng)度做為節(jié)點(diǎn)。6 個(gè)樣本當(dāng)中花萼長(zhǎng)度大于等于 5.1 cm 的就是 A 類(lèi),小于 5.1 cm 的是 B 類(lèi)。生成的過(guò)程其實(shí)非常簡(jiǎn)單,問(wèn)題

是哪個(gè)特征最合適?

是這個(gè)特征的什么特征值作為切分點(diǎn)?

即使我們已經(jīng)確定了花萼長(zhǎng)度做為節(jié)點(diǎn)?;ㄝ嚅L(zhǎng)度本身也有很多值。在這里我們的方式是遍歷所有的可能性,找到一個(gè)最好的特征和它對(duì)應(yīng)的最優(yōu)特征值可以讓當(dāng)前式子的值最?。?/p>

我們以第一個(gè)特征的第一個(gè)特征值為例。R1 為所有樣本中花萼長(zhǎng)度小于 5.1cm 的樣本集合,R2 為所有樣本中花萼長(zhǎng)度大于等于 5.1cm 的樣本集合,所以 。

d2763b74-4692-11eb-8b86-12bb97331649.png

為 R1 所有樣本label的均值:, 為 R2 所有樣本 label 的均值:

下面計(jì)算損失函數(shù)的值,采用平方誤差,分別計(jì)算 R1 和 R2 的誤差平方和,樣本 2 屬于 R1 的誤差:,樣本 1,3,4,5,6 屬于 R2 的誤差和:

接著我們計(jì)算第一個(gè)特征的第二個(gè)特征值,即 R1 為所有樣本中花萼長(zhǎng)度小于 4.9 cm 的樣本集合,R2 為所有樣本當(dāng)中花萼長(zhǎng)度大于等于 4.9 cm 的樣本集合,, 為 R1 所有樣本 label 的均值:0, 為 R2 所有樣本 label 的均值:

d2b2c436-4692-11eb-8b86-12bb97331649.png

計(jì)算所有樣本的損失值,樣本 1 和 2 屬于 R2,損失值為:,樣本 3,4,5,6 也屬于 R2,損失值為:,兩組損失值和為 2.222,大于特征一的第一個(gè)特征值的損失值,所以我們不取這個(gè)特征的特征值。

「繼續(xù),這里有四個(gè)特征,每個(gè)特征有六個(gè)特征值,所有需要 6*4=24 個(gè)損失值的計(jì)算,我們選取值最小的分量的分界點(diǎn)作為最佳劃分點(diǎn),這里我們就不一一計(jì)算了,直接給出最小的特征花萼長(zhǎng)度,特征值為 5.1 cm。這個(gè)時(shí)候損失函數(shù)最小為 0.8。于是我們的預(yù)測(cè)函數(shù)此時(shí)也可以得到:」

「此例子中,訓(xùn)練完以后的最終式子為:」

由這個(gè)式子,我們得到對(duì)樣本屬于類(lèi)別 1 的預(yù)測(cè)值:,同理我們可以得到對(duì)樣本屬于類(lèi)別 2,3 的預(yù)測(cè)值 ,樣本屬于類(lèi)別 1 的概率

責(zé)任編輯:xj

原文標(biāo)題:GBDT 如何用于分類(lèi)問(wèn)題

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4784

    瀏覽量

    98044
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8553

    瀏覽量

    136935
  • GBDT
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    4205

原文標(biāo)題:GBDT 如何用于分類(lèi)問(wèn)題

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    調(diào)用1688開(kāi)放平臺(tái)商品分類(lèi)API獲取分類(lèi)數(shù)據(jù)

    如何調(diào)用1688的“獲取商品分類(lèi)樹(shù)”API。 一、 接口簡(jiǎn)介 API名稱(chēng): alibaba.category.get 功能描述: 此接口用于獲取1688平臺(tái)的商品類(lèi)目信息。它可以返回一級(jí)類(lèi)目列表,或者根據(jù)傳入的父類(lèi)目ID,查詢(xún)其下的子類(lèi)目列表。 適用場(chǎng)景: 構(gòu)建商品發(fā)布系
    的頭像 發(fā)表于 02-02 16:19 ?298次閱讀
    調(diào)用1688開(kāi)放平臺(tái)商品<b class='flag-5'>分類(lèi)</b>API獲取<b class='flag-5'>分類(lèi)</b>數(shù)據(jù)

    何用軟件實(shí)現(xiàn)系統(tǒng)的復(fù)位?

    看門(mén)狗的工作過(guò)程是怎樣的? 如何用軟件實(shí)現(xiàn)系統(tǒng)的復(fù)位?
    發(fā)表于 01-08 06:15

    何用FPGA實(shí)現(xiàn)4K視頻的輸入輸出與處理

    在游戲、影視和顯示領(lǐng)域,4K 已經(jīng)成為標(biāo)配。而今天,我們就來(lái)聊聊——如何用 FPGA 實(shí)現(xiàn) 4K 視頻的輸入輸出與處理。
    的頭像 發(fā)表于 10-15 10:47 ?2124次閱讀
    如<b class='flag-5'>何用</b>FPGA實(shí)現(xiàn)4K視頻的輸入輸出與處理

    RFID在垃圾分類(lèi)中的核心優(yōu)勢(shì)

    RFID在垃圾分類(lèi)中的核心優(yōu)勢(shì)精準(zhǔn)溯源每個(gè)居民或單位的垃圾桶配備唯一編碼的RFID標(biāo)簽,系統(tǒng)可記錄每次投放的時(shí)間、地點(diǎn)和責(zé)任人,實(shí)現(xiàn)垃圾來(lái)源可追溯。自動(dòng)識(shí)別分類(lèi)在智能垃圾箱上安裝RFID讀寫(xiě)器,當(dāng)
    的頭像 發(fā)表于 09-23 11:08 ?547次閱讀
    RFID在垃圾<b class='flag-5'>分類(lèi)</b>中的核心優(yōu)勢(shì)

    傳感器大全分類(lèi)

    傳感器大全分類(lèi)
    發(fā)表于 09-04 16:56 ?8次下載

    關(guān)于NanoEdge AI用于n-Class的問(wèn)題求解

    我想請(qǐng)教一下關(guān)于NanoEdge AI用于n-Class的問(wèn)題。我使用NanoEdge AI的n-Class模式,訓(xùn)練好模型,設(shè)計(jì)了3個(gè)分類(lèi),使用PC端的模擬工具測(cè)試過(guò),模型可以正常對(duì)數(shù)據(jù)進(jìn)行分類(lèi)
    發(fā)表于 08-11 06:44

    RFID標(biāo)簽在垃圾分類(lèi)的應(yīng)用

    二、RFID標(biāo)簽在垃圾分類(lèi)中的優(yōu)勢(shì)高效率:RFID可以快速批量讀取垃圾信息,大幅縮短操作時(shí)間,提高垃圾分類(lèi)效率。準(zhǔn)確性:RFID減少了人工操作的錯(cuò)誤率,提高了垃圾分類(lèi)的準(zhǔn)確性和可靠性。實(shí)時(shí)性:通過(guò)
    的頭像 發(fā)表于 07-31 16:48 ?775次閱讀
    RFID標(biāo)簽在垃圾<b class='flag-5'>分類(lèi)</b>的應(yīng)用

    產(chǎn)品分類(lèi)管理API接口

    ? 產(chǎn)品分類(lèi)管理是現(xiàn)代電商、庫(kù)存系統(tǒng)和內(nèi)容管理平臺(tái)的核心功能,它通過(guò)API接口實(shí)現(xiàn)高效的分類(lèi)創(chuàng)建、查詢(xún)、更新和刪除操作。本文將逐步介紹產(chǎn)品分類(lèi)管理API的設(shè)計(jì)原理、關(guān)鍵功能和實(shí)現(xiàn)方法,幫助您構(gòu)建可靠
    的頭像 發(fā)表于 07-25 14:20 ?462次閱讀
    產(chǎn)品<b class='flag-5'>分類(lèi)</b>管理API接口

    霍爾IC的原理和分類(lèi)

    霍爾IC是一種能夠進(jìn)行高/低電平數(shù)字信號(hào)輸出的傳感器,便于后端驅(qū)動(dòng)器和微控制器進(jìn)行數(shù)據(jù)處理,因此被廣泛應(yīng)用于各種白色家電和工業(yè)設(shè)備中。本頁(yè)將介紹霍爾IC的原理和分類(lèi)。
    的頭像 發(fā)表于 07-08 14:28 ?2095次閱讀
    霍爾IC的原理和<b class='flag-5'>分類(lèi)</b>

    用一杯咖啡的時(shí)間,讀懂AI二分類(lèi)如何守護(hù)工業(yè)質(zhì)量

    您是否想過(guò),工廠(chǎng)里那些"非黑即白"的判斷,正由AI用最簡(jiǎn)潔的邏輯守護(hù)質(zhì)量?今天,讓我們通過(guò)一個(gè)零件組裝中的彈墊錯(cuò)裝、漏裝、多裝、錯(cuò)序分類(lèi)案例,拆解AI二分類(lèi)技術(shù)的核心
    的頭像 發(fā)表于 07-08 07:35 ?834次閱讀
    用一杯咖啡的時(shí)間,讀懂AI二<b class='flag-5'>分類(lèi)</b>如何守護(hù)工業(yè)質(zhì)量

    風(fēng)華貼片電感的標(biāo)準(zhǔn)分類(lèi)體系

    作為國(guó)內(nèi)電子元器件領(lǐng)域的領(lǐng)軍企業(yè),風(fēng)華高科通過(guò)構(gòu)建多維度分類(lèi)體系,實(shí)現(xiàn)了貼片電感產(chǎn)品的精準(zhǔn)定位與高效應(yīng)用。其分類(lèi)邏輯融合了結(jié)構(gòu)特征、功能特性及場(chǎng)景適配性,形成了涵蓋產(chǎn)品形態(tài)、技術(shù)參數(shù)、應(yīng)用領(lǐng)域
    的頭像 發(fā)表于 05-19 14:04 ?663次閱讀
    風(fēng)華貼片電感的標(biāo)準(zhǔn)<b class='flag-5'>分類(lèi)</b>體系

    ?電源管理芯片的分類(lèi)

    電源管理芯片的分類(lèi) 電源管理芯片涵蓋電壓轉(zhuǎn)換、電池管理、驅(qū)動(dòng)控制等核心功能,并適配汽車(chē)、消費(fèi)電子、工業(yè)等多樣化場(chǎng)景,技術(shù)向高集成度與智能化推進(jìn)。 一、按核心功能分類(lèi) 電壓轉(zhuǎn)換 AC/DC調(diào)制芯片
    的頭像 發(fā)表于 05-12 11:49 ?2137次閱讀
    ?電源管理芯片的<b class='flag-5'>分類(lèi)</b>

    Ethercat轉(zhuǎn)Profinet網(wǎng)關(guān)如何用“協(xié)議翻譯術(shù)”打通自動(dòng)化產(chǎn)線(xiàn)任督二脈

    Ethercat轉(zhuǎn)Profinet網(wǎng)關(guān)如何用“協(xié)議翻譯術(shù)”打通自動(dòng)化產(chǎn)線(xiàn)任督二脈
    的頭像 發(fā)表于 05-10 14:42 ?554次閱讀
    Ethercat轉(zhuǎn)Profinet網(wǎng)關(guān)如<b class='flag-5'>何用</b>“協(xié)議翻譯術(shù)”打通自動(dòng)化產(chǎn)線(xiàn)任督二脈

    電子元器件的分類(lèi)方式

    電子元器件可以按照不同的分類(lèi)標(biāo)準(zhǔn)進(jìn)行分類(lèi),以下是一些常見(jiàn)的分類(lèi)方式。
    的頭像 發(fā)表于 04-16 14:52 ?2961次閱讀

    何用幾條命令搞定Ubuntu系統(tǒng)的網(wǎng)絡(luò)配置

    在某些場(chǎng)景下,設(shè)備沒(méi)有顯示器或屏可以用,這時(shí)候通過(guò)命令行來(lái)設(shè)置網(wǎng)絡(luò)就變得特別重要了。本文將介紹如何用幾條命令搞定Ubuntu系統(tǒng)的網(wǎng)絡(luò)配置。
    的頭像 發(fā)表于 03-14 10:53 ?3689次閱讀
    如<b class='flag-5'>何用</b>幾條命令搞定Ubuntu系統(tǒng)的網(wǎng)絡(luò)配置