91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

機器學習如何應對失衡類別

zhKF_jqr_AI ? 來源:未知 ? 作者:鄧佳佳 ? 2018-03-05 11:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前言

實際應用中的分類問題往往不像教科書上人造的例子那樣齊整,類別往往存在某種程度上的失衡。Towards Data Science博主Devin Soni簡要介紹了應對失衡分類的常用方法。

介紹

大多數(shù)真實世界的分類問題都呈現(xiàn)出某種程度的類別失衡,即每個類別在數(shù)據(jù)集中的比例不同。恰當?shù)卣{(diào)整指標和方法以適應目標非常重要。否則,你可能最終會為一個對你的用例無意義的度量指標進行優(yōu)化。

例如,假設你有兩個類——A和B。A類占數(shù)據(jù)集的90%,B類占10%,但你最感興趣的是識別B類的實例。你可以每次都預測分類為A,這樣輕易就能達到90%的精確度,但對你的預期用例而言,這是一個無用的分類器。相反,經(jīng)過恰當?shù)匦实姆椒赡芫_度較低,但會有較高的真陽率(或召回),這才是你應該優(yōu)化的指標。在進行檢測時,這是常常發(fā)生的場景,例如檢測在線惡意內(nèi)容或醫(yī)療數(shù)據(jù)中的疾病標記。

現(xiàn)在我將討論幾種可以用來緩解類別失衡的技術。一些技術適用于大多數(shù)分類問題,而其他技術可能更適合具備特定的失衡水平的問題。本文將從二元分類的角度來討論這些問題,但大多數(shù)情況下,這些技術同樣適用于多類分類問題。本文同時假設目標是識別少數(shù)類別,否則,這些技術并不是真的很有必要。

指標

一般來說,這個問題涉及召回率(recall,真陽性實例被分類為陽性實例的百分比)和準確率(precision,被分類為真陽性的實例中確實是陽性的百分比)之間的折衷。當我們想要檢測少數(shù)類別實例時,我們通常更關心召回率而不是準確率,因為在檢測的情境中,錯過正面實例的成本通常高于錯誤地標記負面實例為正面實例。例如,如果我們試圖檢測惡意內(nèi)容,那么手動審核糾正被誤認為惡意內(nèi)容的正常內(nèi)容是微不足道的,但要識別甚至從未被標記為惡意內(nèi)容的內(nèi)容就要困難很多了。因此,比較適用于失衡分類問題的方法時,請考慮使用精確度之外的指標,例如召回率,準確率和AUROC。在選擇參數(shù)和模型時,切換優(yōu)化指標可能就足以提供偵測少數(shù)類別所需的表現(xiàn)。

成本敏感學習

在通常的學習中,我們平等對待所有錯誤分類,這在失衡分類問題中會導致問題,因為相比識別出主要類別,識別出少數(shù)類別并不會有額外的獎勵。成本敏感學習改變了這一點,使用函數(shù)C(p, t)(通常表示為矩陣)指定將t類實例錯誤分類為p類實例的成本。這讓我們可以給錯誤分類少數(shù)類別更多的懲罰,以便增加真陽率。一個常用的方案是讓成本等于類別在數(shù)據(jù)集中所占比例的倒數(shù)。這樣,當類別尺寸縮小時,懲罰會增加。

采樣

解決失衡數(shù)據(jù)集的一個簡單方法就是平滑它們,過采樣少數(shù)類別,或者欠采樣主要類別。這讓我們創(chuàng)建一個平衡的數(shù)據(jù)集,理論上能使分類器不偏向其中一個類。然而,這些簡單的采樣方法實際上存在缺陷。過采樣少數(shù)類別會導致模型過擬合,因為它會引入從已經(jīng)很小的實例池中抽取的重復實例。同樣,欠采樣主要類別可能最終導致遺漏體現(xiàn)了兩個類別之間的重要差別的重要實例。

還存在比簡單的過采樣或欠采樣更強大的采樣方法。最著名的例子是SMOTE,SMOTE通過構建相鄰實例的凸組合來創(chuàng)建少數(shù)類別的新實例。如下圖所示,它有效地繪制了特征空間中少數(shù)點之間的線條,并沿著這些線條采樣。這使我們能夠平衡我們的數(shù)據(jù)集,而不會過多地過擬合,因為我們創(chuàng)建了新的合成示例,而沒有使用重復樣本。不過這并不能防止所有過擬合,因為這些合成數(shù)據(jù)點仍然是基于現(xiàn)有數(shù)據(jù)點創(chuàng)建的。


可視化SMOTE。陰影方塊:主要類別樣本;黑點:少數(shù)類別樣本;紅點:生成樣本

異常偵測

在更極端的情況下,將分類問題考慮成異常檢測(anomaly detection)問題可能會更好。在異常檢測問題中,我們假設有一個或一組“正常”的數(shù)據(jù)點分布,而任何與該分布足夠偏離的東西都是異常值。將分類問題置于異常檢測的框架下以后,我們將主要類別視為點的“正?!狈植?,將少數(shù)類別視為異常。有許多用于異常檢測的算法,例如聚類(clustering)方法,單類SVM(One-class SVM)和孤立森林(Isolation Forests)。


可視化用于異常檢測的聚類方法

結論

希望這些方法的某些組合可以讓你創(chuàng)建一個更好的分類器。像我之前說的那樣,這些技術中的某些技術更適合不同程度的失衡。例如,簡單的采樣技術可以讓你克服輕微失衡,而極端失衡可能需要異常檢測方法。基本上,對于這個問題,沒有包治百病的靈丹妙藥,你需要嘗試每種方法,看看它們應用到你的特定用例和指標的效果如何。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136948

原文標題:機器學習如何應對失衡類別

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    人工智能與機器學習在這些行業(yè)的深度應用

    自人工智能和機器學習問世以來,多個在線領域的數(shù)字化格局迎來了翻天覆地的變化。這些技術從誕生之初就為企業(yè)賦予了競爭優(yōu)勢,而在線行業(yè)正是受其影響最為顯著的領域。人工智能(AI)與機器學習
    的頭像 發(fā)表于 02-04 14:44 ?475次閱讀

    強化學習會讓自動駕駛模型學習更快嗎?

    是一種讓機器通過“試錯”學會決策的辦法。與監(jiān)督學習不同,監(jiān)督學習是有人提供示范答案,讓模型去模仿;而強化學習不會把每一步的“正確答案”都告訴你,而是把環(huán)境、動作和結果連起來,讓
    的頭像 發(fā)表于 01-31 09:34 ?643次閱讀
    強化<b class='flag-5'>學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    機器學習和深度學習中需避免的 7 個常見錯誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關工作一段時間,機器學習和深度學習中都存在一些我們需要時刻關注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發(fā)諸多麻煩!只要我們密切關注數(shù)據(jù)、模型架構
    的頭像 發(fā)表于 01-07 15:37 ?191次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>中需避免的 7 個常見錯誤與局限性

    Bluetooth?本地“設備類別”值未出現(xiàn)在遠程端是為什么?

    Bluetooth?本地“設備類別”值未出現(xiàn)在遠程端
    發(fā)表于 11-12 06:42

    半導體缺陷檢測升級:機器學習(ML)攻克類別不平衡難題,小數(shù)據(jù)也能精準判,降本又提效!

    一、引言機器學習(ML)在半導體制造領域的應用,正面臨傳統(tǒng)算法難以突破的核心瓶頸。盡管行業(yè)能產(chǎn)生海量生產(chǎn)數(shù)據(jù),但兩大關鍵問題始終未能有效解決:一是極端類別不平衡,二是初始生產(chǎn)階段訓練數(shù)據(jù)集匱乏
    的頭像 發(fā)表于 11-05 11:38 ?559次閱讀
    半導體缺陷檢測升級:<b class='flag-5'>機器</b><b class='flag-5'>學習</b>(ML)攻克<b class='flag-5'>類別</b>不平衡難題,小數(shù)據(jù)也能精準判,降本又提效!

    NVIDIA神經(jīng)網(wǎng)絡創(chuàng)新研究重塑機器人學習

    目前,機器人在受控的環(huán)境中能夠有出色的表現(xiàn),但在面對現(xiàn)實世界任務時,仍難以應對其中的不可預測性、操作靈活性和細微的交互需求,例如組裝精密組件或是以接近人類的精度操控日常物體。
    的頭像 發(fā)表于 10-21 11:07 ?1957次閱讀
    NVIDIA神經(jīng)網(wǎng)絡創(chuàng)新研究重塑<b class='flag-5'>機器人學習</b>

    NVIDIA開源物理引擎與OpenUSD加速機器人學習

    開發(fā)能在工廠、醫(yī)院和公共空間與人類協(xié)同作業(yè)的機器人是一項巨大的技術挑戰(zhàn)。這類機器人需具備與人類接近的靈巧性、感知能力、認知能力和全身協(xié)調(diào)性,以便于實時應對充滿不確定性的真實環(huán)境。
    的頭像 發(fā)表于 10-13 11:15 ?990次閱讀

    量子機器學習入門:三種數(shù)據(jù)編碼方法對比與應用

    在傳統(tǒng)機器學習中數(shù)據(jù)編碼確實相對直觀:獨熱編碼處理類別變量,標準化調(diào)整數(shù)值范圍,然后直接輸入模型訓練。整個過程更像是數(shù)據(jù)清洗,而非核心算法組件。量子機器
    的頭像 發(fā)表于 09-15 10:27 ?772次閱讀
    量子<b class='flag-5'>機器</b><b class='flag-5'>學習</b>入門:三種數(shù)據(jù)編碼方法對比與應用

    如何在機器視覺中部署深度學習神經(jīng)網(wǎng)絡

    圖 1:基于深度學習的目標檢測可定位已訓練的目標類別,并通過矩形框(邊界框)對其進行標識。 在討論人工智能(AI)或深度學習時,經(jīng)常會出現(xiàn)“神經(jīng)網(wǎng)絡”、“黑箱”、“標注”等術語。這些概念對非專業(yè)
    的頭像 發(fā)表于 09-10 17:38 ?901次閱讀
    如何在<b class='flag-5'>機器</b>視覺中部署深度<b class='flag-5'>學習</b>神經(jīng)網(wǎng)絡

    如何解決開發(fā)機器學習程序時Keil項目只能在調(diào)試模式下運行,但無法正常執(zhí)行的問題?

    如何解決開發(fā)機器學習程序時Keil項目只能在調(diào)試模式下運行,但無法正常執(zhí)行的問題
    發(fā)表于 08-28 07:28

    AI 驅(qū)動三維逆向:點云降噪算法工具與機器學習建模能力的前沿應用

    在三維逆向工程領域,傳統(tǒng)方法在處理復雜數(shù)據(jù)和構建高精度模型時面臨諸多挑戰(zhàn)。隨著人工智能(AI)技術的發(fā)展,點云降噪算法工具與機器學習建模能力的應用,為三維逆向工程帶來了創(chuàng)新性解決方案,顯著提升
    的頭像 發(fā)表于 08-20 10:00 ?705次閱讀
    AI 驅(qū)動三維逆向:點云降噪算法工具與<b class='flag-5'>機器</b><b class='flag-5'>學習</b>建模能力的前沿應用

    貿(mào)澤電子2025邊緣AI與機器學習技術創(chuàng)新論壇回顧(上)

    2025年,隨著人工智能技術的快速發(fā)展,邊緣AI與機器學習市場迎來飛速增長,據(jù)Gartner預計,2025年至2030年,邊緣AI市場將保持23%的復合年增長率。
    的頭像 發(fā)表于 07-21 11:08 ?1177次閱讀
    貿(mào)澤電子2025邊緣AI與<b class='flag-5'>機器</b><b class='flag-5'>學習</b>技術創(chuàng)新論壇回顧(上)

    FPGA在機器學習中的具體應用

    隨著機器學習和人工智能技術的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復雜模型的需求。FPGA(現(xiàn)場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發(fā)表于 07-16 15:34 ?2890次閱讀

    **【技術干貨】Nordic nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機器學習的完美結合**

    【技術干貨】nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機器學習的完美結合 近期收到不少伙伴咨詢nRF54系列芯片的應用與技術細節(jié),今天我們整理幾個核心問題與解答,帶你快速掌握如何在nRF54上部署AI
    發(fā)表于 04-01 00:00

    請問STM32部署機器學習算法硬件至少要使用哪個系列的芯片?

    STM32部署機器學習算法硬件至少要使用哪個系列的芯片?
    發(fā)表于 03-13 07:34