91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

XGBoost號(hào)稱(chēng)“比賽奪冠的必備大殺器”,橫掃機(jī)器學(xué)習(xí)競(jìng)賽罕逢敵手

DPVg_AI_era ? 來(lái)源:lq ? 2019-04-30 09:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

XGBoost號(hào)稱(chēng)“比賽奪冠的必備大殺器”,橫掃機(jī)器學(xué)習(xí)競(jìng)賽罕逢敵手,堪稱(chēng)機(jī)器學(xué)習(xí)算法中的新女王!

在涉及非結(jié)構(gòu)化數(shù)據(jù)(圖像、文本等)的預(yù)測(cè)問(wèn)題中,人工神經(jīng)網(wǎng)絡(luò)顯著優(yōu)于所有其他算法或框架。但當(dāng)涉及到中小型結(jié)構(gòu)/表格數(shù)據(jù)時(shí),基于決策樹(shù)的算法現(xiàn)在被認(rèn)為是最佳方法。而基于決策樹(shù)算法中最驚艷的,非XGBoost莫屬了。

打過(guò)Kaggle、天池、DataCastle、Kesci等國(guó)內(nèi)外數(shù)據(jù)競(jìng)賽平臺(tái)之后,一定對(duì)XGBoost的威力印象深刻。XGBoost號(hào)稱(chēng)“比賽奪冠的必備大殺器”,橫掃機(jī)器學(xué)習(xí)競(jìng)賽罕逢敵手。最近甚至有一位大數(shù)據(jù)/機(jī)器學(xué)習(xí)主管被XGBoost在項(xiàng)目中的表現(xiàn)驚艷到,盛贊其為“機(jī)器學(xué)習(xí)算法中的新女王”!

XGBoost最初由陳天奇開(kāi)發(fā)。陳天奇是華盛頓大學(xué)計(jì)算機(jī)系博士生,研究方向?yàn)榇笠?guī)模機(jī)器學(xué)習(xí)。他曾獲得KDD CUP 2012 Track 1第一名,并開(kāi)發(fā)了SVDFeature,XGBoost,cxxnet等著名機(jī)器學(xué)習(xí)工具,是Distributed (Deep) Machine Learning Common的發(fā)起人之一。

XGBoost實(shí)現(xiàn)了高效、跨平臺(tái)、分布式gradient boosting (GBDT, GBRT or GBM) 算法的一個(gè)庫(kù),可以下載安裝并應(yīng)用于C++Python,R,Julia,Java,Scala,Hadoop等。目前Github上超過(guò)15700星、6500個(gè)fork。

項(xiàng)目主頁(yè):

https://XGBoost.ai/

XGBoost是什么

XGBoost全稱(chēng):eXtreme Gradient Boosting,是一種基于決策樹(shù)的集成機(jī)器學(xué)習(xí)算法,使用梯度上升框架,適用于分類(lèi)和回歸問(wèn)題。優(yōu)點(diǎn)是速度快、效果好、能處理大規(guī)模數(shù)據(jù)、支持多種語(yǔ)言、支持自定義損失函數(shù)等,不足之處是因?yàn)閮H僅推出了不足5年時(shí)間,需要進(jìn)一步的實(shí)踐檢驗(yàn)。

XGBoost選用了CART樹(shù),數(shù)學(xué)公式表達(dá)XGBoost模型如下:

K是樹(shù)的數(shù)量,F(xiàn)表示所有可能的CART樹(shù),f表示一棵具體的CART樹(shù)。這個(gè)模型由K棵CART樹(shù)組成。

模型的目標(biāo)函數(shù),如下所示:

XGBoost具有以下幾個(gè)特點(diǎn):

靈活性:支持回歸、分類(lèi)、排名和用戶定義函數(shù)

跨平臺(tái):適用于Windows、Linux、macOS,以及多個(gè)云平臺(tái)

多語(yǔ)言:支持C++, Python, R, Java, Scala, Julia等

效果好:贏得許多數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)挑戰(zhàn)。用于多家公司的生產(chǎn)

云端分布式:支持多臺(tái)計(jì)算機(jī)上的分布式訓(xùn)練,包括AWS、GCE、Azure和Yarn集群??梢耘cFlink、Spark和其他云數(shù)據(jù)流系統(tǒng)集成

下圖顯示了基于樹(shù)的算法的發(fā)展歷程:

決策樹(shù):由一個(gè)決策圖和可能的結(jié)果(包括資源成本和風(fēng)險(xiǎn))組成, 用來(lái)創(chuàng)建到達(dá)目標(biāo)的規(guī)劃。

Bagging:是一種集合元算法,通過(guò)多數(shù)投票機(jī)制將來(lái)自多決策樹(shù)的預(yù)測(cè)結(jié)合起來(lái),也就是將弱分離器 f_i(x) 組合起來(lái)形成強(qiáng)分類(lèi)器 F(x) 的一種方法

隨機(jī)森林:基于Bagging算法。隨機(jī)選擇一個(gè)包含多種特性的子集來(lái)構(gòu)建一個(gè)森林,或者決策樹(shù)的集合

Boosting:通過(guò)最小化先前模型的誤差,同時(shí)增加高性能模型的影響,順序構(gòu)建模型

梯度上升:對(duì)于似然函數(shù),要求最大值,叫做梯度上升

XGBoost:極端梯度上升,XGBoost是一個(gè)優(yōu)化的分布式梯度上升庫(kù),旨在實(shí)現(xiàn)高效,靈活和跨平臺(tái)

為什么XGBoost能橫掃機(jī)器學(xué)習(xí)競(jìng)賽平臺(tái)?

下圖是XGBoost與其它gradient boosting和bagged decision trees實(shí)現(xiàn)的效果比較,可以看出它比R, Python,Spark,H2O的基準(zhǔn)配置都快。

XGBoost和Gradient Boosting Machines(GBMs)都是集合樹(shù)方法,使用梯度下降架構(gòu)來(lái)提升弱學(xué)習(xí)者(通常是CART)。而XGBoost通過(guò)系統(tǒng)優(yōu)化和算法增強(qiáng)改進(jìn)了基礎(chǔ)GBM框架,在系統(tǒng)優(yōu)化和機(jī)器學(xué)習(xí)原理方面都進(jìn)行了深入的拓展。

系統(tǒng)優(yōu)化:

并行計(jì)算:

由于用于構(gòu)建base learners的循環(huán)的可互換性,XGBoost可以使用并行計(jì)算實(shí)現(xiàn)來(lái)處理順序樹(shù)構(gòu)建過(guò)程。

外部循環(huán)枚舉樹(shù)的葉節(jié)點(diǎn),第二個(gè)內(nèi)部循環(huán)來(lái)計(jì)算特征,這個(gè)對(duì)算力要求更高一些。這種循環(huán)嵌套限制了并行化,因?yàn)橹灰獌?nèi)部循環(huán)沒(méi)有完成,外部循環(huán)就無(wú)法啟動(dòng)。

因此,為了改善運(yùn)行時(shí),就可以讓兩個(gè)循環(huán)在內(nèi)部交換循環(huán)的順序。此開(kāi)關(guān)通過(guò)抵消計(jì)算中的所有并行化開(kāi)銷(xiāo)來(lái)提高算法性能。

Tree Pruning:

GBM框架內(nèi)樹(shù)分裂的停止標(biāo)準(zhǔn)本質(zhì)上是貪婪的,取決于分裂點(diǎn)的負(fù)損失標(biāo)準(zhǔn)。XGBoost首先使用'max_depth'參數(shù)而不是標(biāo)準(zhǔn),然后開(kāi)始向后修剪樹(shù)。這種“深度優(yōu)先”方法顯著的提高了計(jì)算性能。

硬件優(yōu)化:

該算法旨在有效利用硬件資源。這是通過(guò)在每個(gè)線程中分配內(nèi)部緩沖區(qū)來(lái)存儲(chǔ)梯度統(tǒng)計(jì)信息來(lái)實(shí)現(xiàn)緩存感知來(lái)實(shí)現(xiàn)的。諸如“核外”計(jì)算等進(jìn)一步增強(qiáng)功能可優(yōu)化可用磁盤(pán)空間,同時(shí)處理不適合內(nèi)存的大數(shù)據(jù)幀。

算法增強(qiáng):

正則化:

它通過(guò)LASSO(L1)和Ridge(L2)正則化來(lái)懲罰更復(fù)雜的模型,以防止過(guò)擬合。

稀疏意識(shí):

XGBoost根據(jù)訓(xùn)練損失自動(dòng)“學(xué)習(xí)”最佳缺失值并更有效地處理數(shù)據(jù)中不同類(lèi)型的稀疏模式。

加權(quán)分位數(shù)草圖:

XGBoost采用分布式加權(quán)分位數(shù)草圖算法,有效地找到加權(quán)數(shù)據(jù)集中的最優(yōu)分裂點(diǎn)。

交叉驗(yàn)證:

該算法每次迭代時(shí)都帶有內(nèi)置的交叉驗(yàn)證方法,無(wú)需顯式編程此搜索,并可以指定單次運(yùn)行所需的增強(qiáng)迭代的確切數(shù)量。

為了測(cè)試XGBoost到底有多快,可以通過(guò)Scikit-learn的'Make_Classification'數(shù)據(jù)包,創(chuàng)建一個(gè)包含20個(gè)特征(2個(gè)信息和2個(gè)冗余)的100萬(wàn)個(gè)數(shù)據(jù)點(diǎn)的隨機(jī)樣本。

下圖為邏輯回歸,隨機(jī)森林,標(biāo)準(zhǔn)梯度提升和XGBoost效率對(duì)比:

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:陳天奇做的XGBoost為什么能橫掃機(jī)器學(xué)習(xí)競(jìng)賽平臺(tái)?

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    太燃了!人形機(jī)器人1500米比賽,這家奪冠!更有機(jī)器人全程自主奔跑

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)2025年8月14日晚,北京國(guó)家速滑館“冰絲帶”迎來(lái)了全球首個(gè)以人形機(jī)器人為參賽主體的綜合性體育盛會(huì)——世界人形機(jī)器人運(yùn)動(dòng)會(huì)。此次運(yùn)動(dòng)會(huì)由中央廣播電視總臺(tái)、北京市
    的頭像 發(fā)表于 08-17 06:21 ?9742次閱讀
    太燃了!人形<b class='flag-5'>機(jī)器</b>人1500米<b class='flag-5'>比賽</b>,這家<b class='flag-5'>奪冠</b>!更有<b class='flag-5'>機(jī)器</b>人全程自主奔跑

    人工智能與機(jī)器學(xué)習(xí)在這些行業(yè)的深度應(yīng)用

    自人工智能和機(jī)器學(xué)習(xí)問(wèn)世以來(lái),多個(gè)在線領(lǐng)域的數(shù)字化格局迎來(lái)了翻天覆地的變化。這些技術(shù)從誕生之初就為企業(yè)賦予了競(jìng)爭(zhēng)優(yōu)勢(shì),而在線行業(yè)正是受其影響最為顯著的領(lǐng)域。人工智能(AI)與機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 02-04 14:44 ?536次閱讀

    第21屆全國(guó)大學(xué)生智能汽車(chē)競(jìng)賽龍芯“走馬觀碑”組首場(chǎng)直播培訓(xùn)

    第二十一屆全國(guó)大學(xué)生智能汽車(chē)競(jìng)賽已正式開(kāi)啟。在本屆比賽中,“走馬觀碑”組將基于龍芯處理構(gòu)建核心控制平臺(tái),進(jìn)一步推動(dòng)國(guó)產(chǎn)自主技術(shù)在教育與競(jìng)賽領(lǐng)域的深度應(yīng)用。值得關(guān)注的是,本屆賽事在硬件
    的頭像 發(fā)表于 01-30 09:51 ?633次閱讀

    機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見(jiàn)錯(cuò)誤與局限性

    無(wú)論你是剛?cè)腴T(mén)還是已經(jīng)從事人工智能模型相關(guān)工作一段時(shí)間,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中都存在一些我們需要時(shí)刻關(guān)注并銘記的常見(jiàn)錯(cuò)誤。如果對(duì)這些錯(cuò)誤置之不理,日后可能會(huì)引發(fā)諸多麻煩!只要我們密切關(guān)注數(shù)據(jù)、模型架構(gòu)
    的頭像 發(fā)表于 01-07 15:37 ?229次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個(gè)常見(jiàn)錯(cuò)誤與局限性

    廣和通斬獲具身智能家務(wù)機(jī)器人黑客松競(jìng)賽二等獎(jiǎng)

    近日,廣和通受邀參加由 Hugging Face、NVIDIA 與 Seeed Studio 聯(lián)合舉辦的“具身智能家務(wù)機(jī)器人黑客松”競(jìng)賽。在本次前沿賽事中,廣和通團(tuán)隊(duì)成功開(kāi)發(fā)、部署并演示了“雙臂協(xié)作家務(wù)機(jī)器人系統(tǒng)”,憑借其創(chuàng)新的
    的頭像 發(fā)表于 11-08 14:51 ?1727次閱讀

    EtherCAT?技術(shù)前瞻:人形機(jī)器人通信的新選擇!

    近年來(lái),隨著人形機(jī)器人逐漸從實(shí)驗(yàn)室走向?qū)嵱没?,其相關(guān)新聞?lì)l繁占據(jù)技術(shù)頭條。從高校比賽、企業(yè)研發(fā)推進(jìn)到亮相春晚舞臺(tái),從仿生步態(tài)研究、智能交互開(kāi)發(fā)到參與近期運(yùn)動(dòng)競(jìng)賽(如馬拉松、RoboCup等),各種
    的頭像 發(fā)表于 10-22 17:36 ?1581次閱讀
    EtherCAT?技術(shù)前瞻:人形<b class='flag-5'>機(jī)器</b>人通信的新選擇!

    TDK傳感技術(shù)助力實(shí)現(xiàn)標(biāo)槍比賽數(shù)據(jù)的可視化

    近日,TDK株式會(huì)社(東京證券交易所代碼:6762) 宣布,通過(guò)與世界田徑聯(lián)合會(huì)于2025年6月宣布的技術(shù)合作,成功實(shí)現(xiàn)了標(biāo)槍比賽數(shù)據(jù)的可視化。通過(guò)應(yīng)用TDK的優(yōu)勢(shì)傳感技術(shù),將此前無(wú)法觀察到的信息可視化,旨在進(jìn)一步提升比賽魅力
    的頭像 發(fā)表于 09-26 09:10 ?1106次閱讀

    機(jī)器人競(jìng)技幕后:磁傳感芯片激活 “精準(zhǔn)感知力”

    粉塵、高溫等極端環(huán)境下信號(hào)衰減的難題。在 “精密裝配” 比賽中,參賽隊(duì)借助升級(jí)后的磁編碼,將機(jī)器人手指夾持精度從 0.2mm 提升至 0.05mm,成功完成 0.3mm 間隙的零件對(duì)接,助力團(tuán)隊(duì)
    發(fā)表于 08-26 10:02

    第六屆TE Connectivity AI Cup全球競(jìng)賽圓滿收官

    近日,在全球行業(yè)技術(shù)領(lǐng)先企業(yè)TE Connectivity(以下簡(jiǎn)稱(chēng)“TE”)主辦的第六屆TE AI Cup全球競(jìng)賽中,中國(guó)西南財(cái)經(jīng)大學(xué)團(tuán)隊(duì)與華南理工大學(xué)團(tuán)隊(duì)?wèi){借出色表現(xiàn)雙雙奪冠。作為聚焦培養(yǎng)高校
    的頭像 發(fā)表于 08-25 14:13 ?0次閱讀

    FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用

    隨著機(jī)器學(xué)習(xí)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無(wú)法滿足高效處理大規(guī)模數(shù)據(jù)和復(fù)雜模型的需求。FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列)作為一種靈活且高效的硬件加速平臺(tái)
    的頭像 發(fā)表于 07-16 15:34 ?2931次閱讀

    超燃!人形機(jī)器人格斗賽,這隊(duì)奪冠

    電子發(fā)燒友網(wǎng)綜合報(bào)道 5月25日晚,《CMG世界機(jī)器人大賽·系列賽》機(jī)甲格斗擂臺(tái)賽在杭州舉行,這是全球首個(gè)以人形機(jī)器人為參賽主體的格斗競(jìng)技賽事。 ? 這場(chǎng)比賽主要由表演賽和競(jìng)技賽兩部分組成,雖然是四
    的頭像 發(fā)表于 05-27 00:07 ?3813次閱讀
    超燃!人形<b class='flag-5'>機(jī)器</b>人格斗賽,這隊(duì)<b class='flag-5'>奪冠</b>!

    全球首個(gè)人形機(jī)器人半馬開(kāi)跑,“天工”奪冠彰顯科技新高度

    4月19日上午,北京亦莊迎來(lái)了一場(chǎng)別開(kāi)生面的賽事——全球首個(gè)人形機(jī)器人半程馬拉松比賽。這場(chǎng)匯聚科技與激情的盛會(huì),吸引了來(lái)自北京、上海、浙江等多地的20支機(jī)器人隊(duì)伍踴躍參賽,共同書(shū)寫(xiě)機(jī)器
    的頭像 發(fā)表于 05-19 13:26 ?823次閱讀
    全球首個(gè)人形<b class='flag-5'>機(jī)器</b>人半馬開(kāi)跑,“天工”<b class='flag-5'>奪冠</b>彰顯科技新高度

    從人形機(jī)器人馬拉松開(kāi)跑看機(jī)器人“核心大小腦”的方案優(yōu)勢(shì)

    2025年4月19日,北京亦莊上演了一場(chǎng)備受關(guān)注的人形機(jī)器人半程馬拉松比賽,20多臺(tái)機(jī)器人與上萬(wàn)名人類(lèi)選手同跑,最終“天工Ultra”以2小時(shí)40分42秒的成績(jī)奪冠。從實(shí)驗(yàn)室到完全開(kāi)放
    的頭像 發(fā)表于 04-28 17:31 ?791次閱讀

    **【技術(shù)干貨】Nordic nRF54系列芯片:傳感數(shù)據(jù)采集與AI機(jī)器學(xué)習(xí)的完美結(jié)合**

    【技術(shù)干貨】nRF54系列芯片:傳感數(shù)據(jù)采集與AI機(jī)器學(xué)習(xí)的完美結(jié)合 近期收到不少伙伴咨詢nRF54系列芯片的應(yīng)用與技術(shù)細(xì)節(jié),今天我們整理幾個(gè)核心問(wèn)題與解答,帶你快速掌握如何在nRF54上部署AI
    發(fā)表于 04-01 00:00

    工業(yè)機(jī)器人設(shè)計(jì)工程師必備指南免費(fèi)下載

    ,以及強(qiáng)大的實(shí)時(shí)通信。 資料亮點(diǎn): *附件:工業(yè)機(jī)器人設(shè)計(jì)工程師必備指南.pdf 全鏈路技術(shù)解析 : 從控制架構(gòu)(Sitara?處理)、伺服驅(qū)動(dòng)(隔離式柵極驅(qū)動(dòng)
    的頭像 發(fā)表于 03-20 18:58 ?1498次閱讀
    工業(yè)<b class='flag-5'>機(jī)器</b>人設(shè)計(jì)工程師<b class='flag-5'>必備</b>指南免費(fèi)下載