91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)特征選擇的三種方法

倩倩 ? 來源:云溪初閣 ? 2020-04-15 15:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

特征選擇,這是一個(gè)在機(jī)器學(xué)習(xí)中非常重要的東西,那些好的特征可以從整體上來提升模型的性能,可以幫助我們更加清晰的理解真?zhèn)€數(shù)據(jù)的特點(diǎn)及底層結(jié)構(gòu),對于后面的模型,算法有著非常重要的作用。

備注:在很多情況下,特征選擇并非必要的,業(yè)務(wù)特征的選擇有很強(qiáng)烈的業(yè)務(wù)契合度在里面,代表著這些特征在業(yè)務(wù)中的重要性也是很高,如果去掉,很有可能會有一定的副作用,但是無法說清這個(gè)副作用,這個(gè)需要進(jìn)入到訓(xùn)練中去訓(xùn)練數(shù)據(jù)來驗(yàn)證這個(gè)效果。

特征選擇作用

這里有些同學(xué)可能是剛開始接觸做特征選擇,并不是很了解為什么要做特征選擇,做了有什么作用?是否只是簡單地減少特征?是否這樣子做了,對結(jié)果有沒有影響?

這里每個(gè)人都有自己的理解,小編根據(jù)自己的經(jīng)驗(yàn),總結(jié)有兩個(gè),參考一下:

1、減少特征的數(shù)量,降低維度,這樣子可以在一定程度上加強(qiáng)模型的泛化能力,從而盡可能地減少過擬合,這里要注意一下:過擬合只能減少,無法消滅,好比這個(gè)世上,其實(shí)沒有最優(yōu)解的一樣,擁有的只有不滿足。

2、在一定程度上降低特征后,從直觀上來看,很多時(shí)候可以一目了然看到特征與特征值之間的關(guān)聯(lián),這個(gè)場景,需要實(shí)際業(yè)務(wù)的支撐,生產(chǎn)上的業(yè)務(wù)數(shù)據(jù)更加明顯,有興趣的同學(xué)可以私信我加群,一起研究。

特征選擇從何入手

這是一個(gè)非常重要的問題,有很多同學(xué)可能剛開始接觸或者想往這方面發(fā)展,拿到了一組數(shù)組,很多時(shí)候就是直接拿了一個(gè)算法,直接做分類或者做回歸或者做聚類,但是這樣子正常情況下,數(shù)據(jù)會存在很多噪音(科普:噪音可以理解為一些垃圾數(shù)據(jù),對我們的結(jié)果或者期望造成了干擾),這樣子的數(shù)據(jù)不會很好。

那如果我要特征選擇呢,又不知從何入手?

這里有兩個(gè)方法,可以作為參考:

1、從業(yè)務(wù)范圍分析,直接觀察特征與業(yè)務(wù)的相關(guān)性,這點(diǎn)非常重要,那些對業(yè)務(wù)有著直接指標(biāo)的數(shù)據(jù),建議保留,否則,可以考慮手動刪除掉。

2、從發(fā)散特性分析,這個(gè)很多同學(xué)畢業(yè)后,就忘了這個(gè)東西,簡單用成語一個(gè)成語來理解一下:一成不變。如果這個(gè)特征滿足這種條件,那證明不發(fā)散,其實(shí)在數(shù)學(xué)中,用方差來計(jì)算的,這種不發(fā)散的特征,基本就沒有什么差異性了,例如某一項(xiàng)特征都是0,怎么有影響呢,這樣子的特征其實(shí)就沒什么用。

特征選擇的三種方法

進(jìn)行特征選擇的時(shí)候,其實(shí)有一定的方法或者規(guī)律可言,總結(jié)起來有三個(gè)

1、過濾法:目前這是小編用的最普遍的方法,因?yàn)樽詈唵?,與業(yè)務(wù)契合度最高,操作過程就是我可以設(shè)定某一個(gè)閾值,然后根據(jù)數(shù)據(jù)的發(fā)散情況或者與業(yè)務(wù)是否相關(guān)來打分,一般都是當(dāng)?shù)陀谶@個(gè)閾值的時(shí)候,就可以考慮過濾掉。

2、嵌入法:這個(gè)方法無法直接從字面來理解,但是其實(shí)也是很好的東西,小編把它叫做過濾法的進(jìn)化版。如何理解這個(gè)進(jìn)化版,原先我們采用過濾法的時(shí)候,很多時(shí)候是人肉直接擼一擼,但是這時(shí)候特征多呢,給你200個(gè)特征,然后我就可能瞎了或者手廢掉了,此時(shí)的做法是此案用機(jī)器學(xué)習(xí)的算法或者模型來訓(xùn)練,然后可以得到各個(gè)特征的權(quán)重值,做個(gè)排序,干掉那些排序地的,例如樹的特征選擇,這些算法,后面會逐一介紹。

3、包裝法:聽這個(gè)名字,是不是也是很迷糊,其實(shí)這個(gè)也比較好理解,不斷循環(huán)訓(xùn)練模型,進(jìn)行目標(biāo)函數(shù)的計(jì)算,一般我們是采用預(yù)測的效果來評分,逐一選擇一定量的特征來做,不斷循環(huán),得到結(jié)果進(jìn)行對比,這樣就可以看到哪些特征不好。不過這個(gè)小編比較少用,計(jì)算上比較費(fèi)時(shí)費(fèi)力,后面的具體算法也會介紹到。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4784

    瀏覽量

    98042
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8553

    瀏覽量

    136932
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    機(jī)器學(xué)習(xí)特征工程:分類變量的數(shù)值化處理方法

    編碼是機(jī)器學(xué)習(xí)流程里最容易被低估的環(huán)節(jié)之一,模型沒辦法直接處理文本形式的分類數(shù)據(jù),尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都是典型的分類
    的頭像 發(fā)表于 02-10 15:58 ?329次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>特征</b>工程:分類變量的數(shù)值化處理<b class='flag-5'>方法</b>

    嵌入式中的浮點(diǎn)型數(shù)據(jù)轉(zhuǎn)換為字節(jié)類型的三種方法

    什么是浮點(diǎn)數(shù) 浮點(diǎn)數(shù)是指一既包含小數(shù)又包含整數(shù)的數(shù)據(jù)類型。 浮點(diǎn)型變量分類 浮點(diǎn)型分為單精度(float型)和雙精度(double型)。浮點(diǎn)型變量使用定義。如下: float a; // 聲明
    發(fā)表于 01-07 06:28

    C語言中實(shí)現(xiàn)函數(shù)宏的三種方式

    ,在 {}、do{...}while(0) 和 ({}) 這三種函數(shù)宏的封裝方式之中,應(yīng)盡可能不使用 {},考慮兼容性一般選擇使用 do{...}while(0),當(dāng)需要函數(shù)宏返回時(shí)可以考慮使用 ({}) 或直接定義函數(shù)。
    發(fā)表于 12-29 07:34

    請問CW32芯片的三種工作模式是什么?

    CW32芯片的三種工作模式是什么?
    發(fā)表于 12-26 06:48

    有多少種方法可以進(jìn)行頻響曲線測量?

    。下面列出APx500軟件包含的至少10種方法都可以進(jìn)行頻響曲線的測量:FrequencyResponseContinuousSweepAcousticRespo
    的頭像 發(fā)表于 11-14 11:29 ?867次閱讀
    有多少<b class='flag-5'>種方法</b>可以進(jìn)行頻響曲線測量?

    量子機(jī)器學(xué)習(xí)入門:三種數(shù)據(jù)編碼方法對比與應(yīng)用

    在傳統(tǒng)機(jī)器學(xué)習(xí)中數(shù)據(jù)編碼確實(shí)相對直觀:獨(dú)熱編碼處理類別變量,標(biāo)準(zhǔn)化調(diào)整數(shù)值范圍,然后直接輸入模型訓(xùn)練。整個(gè)過程更像是數(shù)據(jù)清洗,而非核心算法組件。量子機(jī)器學(xué)習(xí)的編碼完全是另一回事。傳統(tǒng)算
    的頭像 發(fā)表于 09-15 10:27 ?771次閱讀
    量子<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>入門:<b class='flag-5'>三種數(shù)據(jù)編碼方法</b>對比與應(yīng)用

    MEMS中的三種測溫方式

    在集成MEMS芯片的環(huán)境溫度測量領(lǐng)域,熱阻、熱電堆和PN結(jié)原理是三種主流技術(shù)。熱阻是利用熱敏電阻,如金屬鉑或注入硅的溫度電阻系數(shù)恒定,即電阻隨溫度線性變化的特性測溫,電阻變化直接對應(yīng)絕對溫度,需恒流源供電。
    的頭像 發(fā)表于 07-16 13:58 ?1662次閱讀
    MEMS中的<b class='flag-5'>三種</b>測溫方式

    介紹三種常見的MySQL高可用方案

    在生產(chǎn)環(huán)境中,為了確保數(shù)據(jù)庫系統(tǒng)的連續(xù)可用性、降低故障恢復(fù)時(shí)間以及實(shí)現(xiàn)業(yè)務(wù)的無縫切換,高可用(High Availability, HA)方案至關(guān)重要。本文將詳細(xì)介紹三種常見的 MySQL 高可用
    的頭像 發(fā)表于 05-28 17:16 ?1236次閱讀

    精選好文!噪聲系數(shù)測量的三種方法

    器件噪聲系數(shù)的三種方法。每種方法都有其優(yōu)缺點(diǎn),適用于特定的應(yīng)用。下表是三種方法優(yōu)缺點(diǎn)的總結(jié)。理論上,同一個(gè)射頻器件的測量結(jié)果應(yīng)該一樣,但是由于射頻設(shè)備的限制(可用性、精度、頻率范圍、噪聲基底等),必須
    發(fā)表于 05-07 10:18

    雙極型極管放大電路的三種基本組態(tài)的學(xué)習(xí)課件免費(fèi)下載

      本文檔的主要內(nèi)容詳細(xì)介紹的是雙極型極管放大電路的三種基本組態(tài)的學(xué)習(xí)課件免費(fèi)下載包括了:共集電極放大電路,共基極放大電路,三種基本組態(tài)的比較   輸入信號ui
    發(fā)表于 04-11 16:39 ?37次下載

    redis三種集群方案詳解

    在Redis中提供的集群方案總共有三種(一般一個(gè)redis節(jié)點(diǎn)不超過10G內(nèi)存)。
    的頭像 發(fā)表于 03-31 10:46 ?1529次閱讀
    redis<b class='flag-5'>三種</b>集群方案詳解

    CMOS,Bipolar,F(xiàn)ET這三種工藝的優(yōu)缺點(diǎn)是什么?

    在我用photodiode工具選型I/V放大電路的時(shí)候,系統(tǒng)給我推薦了AD8655用于I/V,此芯片為CMOS工藝 但是查閱資料很多都是用FET工藝的芯片,所以請教下用于光電信號放大轉(zhuǎn)換(主要考慮信噪比和帶寬)一般我們用哪種工藝的芯片, CMOS,Bipolar,F(xiàn)ET這三種工藝的優(yōu)缺點(diǎn)是什么?
    發(fā)表于 03-25 06:23

    圖騰柱無橋PFC(功率因數(shù)校正)電路的三種閉環(huán)控制方法

    高效能圖騰柱無橋PFC閉環(huán)控制方案——為EE工程師量身打造的革新設(shè)計(jì) *附件:圖騰柱無橋PFC(功率因數(shù)校正)電路的三種閉環(huán)控制方法.pdf 在服務(wù)器和數(shù)據(jù)中心等高功率密度場景中, 圖騰柱無橋PFC
    的頭像 發(fā)表于 03-24 20:53 ?2604次閱讀

    介紹三種數(shù)據(jù)保護(hù)策略的特點(diǎn)與適用場景

    在企業(yè)IT環(huán)境中,數(shù)據(jù)保護(hù)是不可忽視的重要環(huán)節(jié),而復(fù)制(Replication)、快照(Snapshot)和備份(Backup)是三種常見的策略。它們在數(shù)據(jù)恢復(fù)、業(yè)務(wù)連續(xù)性以及災(zāi)難恢復(fù)中扮演著不同的角色,但很多企業(yè)在選擇數(shù)據(jù)保護(hù)方案時(shí),往往不清楚
    的頭像 發(fā)表于 03-21 11:46 ?1517次閱讀

    GaN、超級SI、SiC這三種MOS器件的用途區(qū)別

    如果想要說明白GaN、超級SI、SiC這三種MOS器件的用途區(qū)別,首先要做的是搞清楚這三種功率器件的特性,然后再根據(jù)材料特性分析具體應(yīng)用。
    的頭像 發(fā)表于 03-14 18:05 ?2698次閱讀