91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

聚類是另一種無監(jiān)督機器學習方法

倩倩 ? 來源:邊際實驗室 ? 2020-03-25 16:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

聚類是另一種無監(jiān)督機器學習方法,該方法將數據點分為相似的組,稱之為“類”。一個類包含來自數據集的一個觀察子集,同一類中的所有觀察值都被認為是“相似的”。每個類里觀測值彼此之間接近(稱為內聚),兩個不同的類里的觀測值彼此遠離或者盡可能不同(稱為分離)。下圖描述了類的內聚和分離。

聚類算法在許多投資問題中特別有用。例如,在對公司進行分組時,類可以發(fā)現公司之間的重要相似性和差異性,而這些相似性和差異性可能不會被標準的行業(yè)分類所捕捉。在投資組合管理中,聚類方法被用來改善投資組合的多樣化。

在實踐中,專家判斷在聚類算法中起著一定的作用。首先,專家必須確定什么是“相似”。每個公司都可以被認為是一個具有多種特征的觀察值,包含營業(yè)收入、利潤、財務比率等財務數值,以及其他潛在的模型輸入值。有了這些特征值,兩個觀測值之間的相似度或“距離”就可以被定義。距離越小,觀測結果越相似;距離越大,觀測結果越不相似。

一個常用的定義方法是歐幾里得距離,即兩點之間的直線距離。在機器學習中,經常使用的距離度量有十余種。在實踐中,距離度量的選擇取決于數據的性質(是否是數值)和被分析的業(yè)務類別。

一旦定義了相關的距離度量,我們就可以將類似的觀測結果分在一起。我們現在介紹兩種比較流行的聚類方法:K-Means和分層聚類。

K-Means

K-Means是一種相對較老的算法,它將觀察值重復劃分為一個固定的數字k(不重疊的類)。類的數量k是一個模型超參數,它的值由研究人員在學習開始之前設置。每個類由它的形心(centroid,即中心)定義,每個觀測值都由算法分配到與該觀測值最接近的形心的類中。

K-Means算法遵循迭代過程。如下表所示,k=3和一組關于變量的觀察結果可以用兩個特征來描述。

在表中,水平軸和垂直軸分別代表第一和第二特征。例如,投資分析師可能希望將一組公司用兩個測量標準分成三類。

算法將觀測數據按以下步驟進行分類:

1、首先確定k(本例為3)個初始隨機形心的位置。

2、算法分析每個觀測值的特征?;谑褂玫木嚯x度量,K-Means將每個觀測值分配給最近的形心(類由形心定義)。

3、借助每個類中的觀測值,K-Means算法在計算每個類新的(k個)形心(形心是觀測值的平均值)。

4、然后將觀測結果重新分配到新的形心,根據觀測結果對類重新定義。

5、再次進行新的(k個)形心及類的確定過程。

K-Means算法將繼續(xù)迭代,直到沒有觀察結果被重新分配到另一個新的類(即不需要重新計算新的形心)。該算法最終收斂并得到最后的K個類及類內的觀察值。在k=3的約束下,K-Means算法最小化了類內的距離(內聚最大化),最大化了類間距離(分離最大化)。

K-Means算法速度快,在擁有上億個觀測數據的數據集上運行良好。但是,類的最終分配可能取決于形心的初始位置。為了解決這個問題,可以使用不同的形心多次運行該算法,然后根據業(yè)務目的選擇最有用的分類。

這種技術的一個限制是,在運行K-Means之前,必須確定類的數量(超參數k)。

因此,我們需要知道,研究問題及分析數據集,選擇多少個類是合理的?;蛘?,可以選擇k的取值范圍,通過運行算法找到最優(yōu)的類的數量——使類內距離最小,類內的相似度最大。但是,最終結果仍可能過于主觀。

以羅素3000指數為例,該指數跟蹤美國市值最高的3000只股票。這3000支股票可以根據財務特征(如總資產、總收益、盈利能力、杠桿率等)和經營特征(如員工人數、研發(fā)費用等)分為10個、50個甚至更多的類。由于處于同一行業(yè)類別中的公司可能具有非常不同的財務和運營特征,因此使用K-Means派生出不同的類可以為“同類”群體的性質提供獨特的理解。如前所述,k的準確選擇取決于所需的精度或分割的水平。我們還可以使用聚類對投資工具或對沖基金進行分類,作為標準分類的替代方法。聚類還可以幫助實現可視化數據,并有助于檢測趨勢或異常值。

總而言之,K-Means算法是投資實踐中最常用的算法之一,特別是在高維數據中發(fā)現特有模式及作為現有靜態(tài)行業(yè)分類的替代方法等方面。

分層聚類

分層聚類是一種用于構建層次類結構的迭代過程。在K-Means聚類中,算法將數據分割成預定數目的聚類;類之間沒有定義的關系。然而,在分層聚類中,算法會創(chuàng)建大小遞增(“內聚”)或遞減(“分離”)的中間類,直到達到最終的聚類。正如“分層”一詞所暗示的,該過程在多層類之間創(chuàng)建關系。雖然與K-Means聚類相比,分層聚類的計算量更大,但它的優(yōu)點是允許分析師在決定使用哪種間隔的數據之前檢查不同間隔數據的分段。

更詳細地說,內聚式(自下至上)分層聚類先將每個觀察值作為自己的類。然后,算法根據距離(相似度)的度量找到兩個最近的類,并將它們合并成一個新的更大的類。這個過程不斷重復,直到所有的觀察值都聚集成一個類。下表中的A表描述了一個內聚聚類的假想示例,其中的觀察結果用字母表示(A到K),觀察結果周圍的圓圈表示類。這個過程從11個單獨的類開始,然后生成分組序列。第一個序列包括6個類,有5個類各自有2個觀測值,1個類有單個觀測值G。接下來生成2個類,一個類有6個觀測值,另一個類有5個觀測值。最后的結果是一個包含所有11個觀測值的大類,該大類包括兩個主要的子類,每個子類包含三個較小的孫類。

相反,分離式(自上而下)分層聚類從單個類的所有觀察值開始。然后根據距離(相似度)將觀測結果分成兩個類。然后,該算法逐步將中間類劃分為更小的類,直到每個類只包含一個觀察值。B表描述了分離式聚類的步驟,它以一個包含11個觀察值的類開始,算法生成兩個較小的類,一個有6個觀測值,另一個有5個觀測值;然后再分為6個類;最后生成11個類,每個類只包含一個觀測值。

在這個假設的例子中,內聚式和分離式聚類產生了相同的結果:兩個主要的子類,每個子類有三個更小的孫類。我們可以在6個類或2個類之間進行選擇。由于計算速度快,內聚式聚類是處理數據集的常用方法。內聚式聚類算法根據局部模式進行決策,不考慮數據的全局結構。因此,內聚式聚類非常適合于對較小的類進行識別。由于分離式聚類先從整體開始,所以常被側重于分析數據的全局結構,因此更適合于識別較大的類。

為了確定內聚式和分離式聚類的最佳結果,需要對兩個類之間的距離有明確的定義。一些常用的定義包括求每個類中所有觀測值之間直線距離的最小值、最大值或平均值。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 聚類算法
    +關注

    關注

    2

    文章

    118

    瀏覽量

    12548
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136962
  • K-means
    +關注

    關注

    0

    文章

    28

    瀏覽量

    11784
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    強化學習會讓自動駕駛模型學習更快嗎?

    一種機器通過“試錯”學會決策的辦法。與監(jiān)督學習不同,監(jiān)督學習是有人提供示范答案,讓模型去模仿;而強化學習不會把每
    的頭像 發(fā)表于 01-31 09:34 ?646次閱讀
    強化<b class='flag-5'>學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    未上市半導體公司的另一種選擇?奎芯與和順石油

    最近資本市場上那些“跨界并購”的事兒,確實挺耐人尋味的。你看,波又波的傳統(tǒng)企業(yè),就像約好了似的,爭先恐后地往半導體行業(yè)里擠。這表面看是生意場上的正常操作,背后卻藏著不少關于行業(yè)轉型、生存發(fā)展
    的頭像 發(fā)表于 11-18 11:46 ?511次閱讀

    用PLC實現卷徑計算的兩算法

    卷徑計算,是動態(tài)計算如鋼卷,紙卷等存料量的一種方法,它是實現張力控制和自動充放料、以及甩尾控制的重要前提。卷徑計算目前主流的方法有兩一種是根據機列速度(產線速度)和和被測卷的轉動角
    的頭像 發(fā)表于 11-14 16:54 ?2088次閱讀
    用PLC實現卷徑計算的兩<b class='flag-5'>種</b>算法

    使用MATLAB的支持向量機解決方案

    支持向量機 (SVM) 是一種監(jiān)督機器學習算法,它能找到分離兩個的數據點的最佳超平面。
    的頭像 發(fā)表于 10-21 15:00 ?646次閱讀
    使用MATLAB的支持向量機解決方案

    量子機器學習入門:三種數據編碼方法對比與應用

    在傳統(tǒng)機器學習中數據編碼確實相對直觀:獨熱編碼處理類別變量,標準化調整數值范圍,然后直接輸入模型訓練。整個過程更像是數據清洗,而非核心算法組件。量子機器學習的編碼完全是
    的頭像 發(fā)表于 09-15 10:27 ?777次閱讀
    量子<b class='flag-5'>機器</b><b class='flag-5'>學習</b>入門:三<b class='flag-5'>種數據編碼方法</b>對比與應用

    閱兵日的“另一種受閱”:賽思的方陣,在高精度授時領域!

    9月3日舉世矚目的閱兵盛典如期舉行45個方隊依次接受祖國和人民的檢閱每個整齊劃的方陣步伐背后每架毫秒不差的空中梯隊身后是另一支特殊的“方陣”正在接受“
    的頭像 發(fā)表于 09-09 13:31 ?768次閱讀
    閱兵日的“<b class='flag-5'>另一種</b>受閱”:賽思的方陣,在高精度授時領域!

    一種新的刷直流電機反電動勢檢測方法

    位置傳感器刷直流電機的控制算法是近年來研究的熱點之,有霍爾位置信號直流電機根據霍爾狀態(tài)來確定通斷功率器件。利用刷直流電機的數學模型,根據反電動勢檢測原理,提出了
    發(fā)表于 08-07 14:29

    一種新的刷直流電機反電動勢檢測方法

    位置傳感器刷直流電機的控制算法是近年來研究的熱點之,有霍爾位置信號直流電機根據霍爾狀態(tài)來確定通斷功率器件。利用刷直流電機的數學模型,根據反電動勢檢測原理,提出了
    發(fā)表于 08-04 14:59

    一種帶通濾波器在位置傳感器轉子檢測中的應用

    摘 要:論文研究了一種直流無刷電機的位置傳感器的轉子位置的硬件電路檢測方法。結合傳統(tǒng)“反電動勢\"方法,分析并設計了一種新的帶通濾波器延時
    發(fā)表于 08-04 14:56

    ARM入門學習方法分享

    。 以下是些入門學習方法的分享: 、 理解基本概念:首先,了解ARM是什么以及它的基本概念是很重要的。ARM(Advanced RISC Machines)指的是一種精簡指令集
    發(fā)表于 07-23 10:21

    機器學習異常檢測實戰(zhàn):用Isolation Forest快速構建標簽異常檢測系統(tǒng)

    本文轉自:DeepHubIMBA監(jiān)督異常檢測作為機器學習領域的重要分支,專門用于在缺乏標記數據的環(huán)境中識別異常事件。本文深入探討異常檢測技術的理論基礎與實踐應用,通過Isolatio
    的頭像 發(fā)表于 06-24 11:40 ?1416次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>異常檢測實戰(zhàn):用Isolation Forest快速構建<b class='flag-5'>無</b>標簽異常檢測系統(tǒng)

    章 W55MH32 高性能以太網單片機的學習方法概述

    本章介紹W55MH32的學習方法,建議先了解硬件資源,按基礎篇、入門篇循序漸進學習。參考兩份手冊,提供例程資料,還給出官網、github 等學習資料查找渠道。讓我們起踏上W55MH3
    的頭像 發(fā)表于 05-26 09:07 ?887次閱讀
    第<b class='flag-5'>一</b>章 W55MH32 高性能以太網單片機的<b class='flag-5'>學習方法</b>概述

    提高IT運維效率,深度解讀京東云AIOps落地實踐(異常檢測篇)

    一種閾值方法:基于 LSTM 網絡的基線(個 LSTM 框架輔助幾個優(yōu)化步驟)和監(jiān)督檢測
    的頭像 發(fā)表于 05-22 16:38 ?1032次閱讀
    提高IT運維效率,深度解讀京東云AIOps落地實踐(異常檢測篇)

    使用MATLAB進行監(jiān)督學習

    監(jiān)督學習一種根據未標注數據進行推斷的機器學習方法。監(jiān)督
    的頭像 發(fā)表于 05-16 14:48 ?1450次閱讀
    使用MATLAB進行<b class='flag-5'>無</b><b class='flag-5'>監(jiān)督學習</b>

    一種刷直流電機霍耳信號與定子繞組關系自學習方法

    的關系。提出了一種刷直流電機霍耳信號與定子繞組關系自學習方法,該方法通過不同的繞組通電組合將電機轉子依次轉到6個不同的位置并記錄對應的霍耳信號,然后得出霍耳信號與定子繞組的對應關系。
    發(fā)表于 03-25 15:15