91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習算法基礎與流程

倩倩 ? 來源:人人都是產(chǎn)品經(jīng)理 ? 2020-04-15 17:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、什么是機器學習

1. 含義

機器學習machine learning,是人工智能的分支,專門研究計算機怎樣模擬或實現(xiàn)人類的學習行為,其通過各種算法訓練模型,并用這些模型對新問題進行識別與預測。

本質上機器學習是一種從數(shù)據(jù)或以往的經(jīng)驗中提取模式,并以此優(yōu)化計算機程序的性能標準。

2. 解決什么問題

解決復雜規(guī)則的問題。如果簡單規(guī)則可以實現(xiàn),則沒必要借助機器學習算法實現(xiàn)。

2009年ACM世界冠軍戴文淵加入百度的時候,百度所有的搜索、廣告都是基于1萬條的專家規(guī)則。借助于機器算法,戴文淵把百度廣告的規(guī)則從1萬條提升到了1000億條。與此相對應的,百度的收入在四年內提升了八倍。

3. 三個名詞之間的關系

人工智能》機器學習》深度學習

以機器學習算法是否應用了神經(jīng)網(wǎng)絡作為區(qū)分標準,應用了多隱含層神經(jīng)網(wǎng)絡的機器學習就是深度學習。

4. 對AI產(chǎn)品經(jīng)理的要求

熟悉機器學習流程(詳見文章第三部分);

了解機器學習可以解決的問題分類(詳見文章第四部分);

了解算法的基本原理;

了解工程實踐中算數(shù)據(jù)和計算資源三者間的依賴關系等。

二、機器學習的基礎

1. 機器學習的基礎——數(shù)據(jù)

人工智能產(chǎn)品由數(shù)據(jù)、算法、計算能力三部分組成,而數(shù)據(jù),是其中的基礎。

全球頂尖人工智能科學家李飛飛的成功離不開ImageNet千萬級的數(shù)據(jù)集。

“ImageNet 讓 AI 領域發(fā)生的一個重大變化是,人們突然意識到構建數(shù)據(jù)集這個苦活累活是 AI 研究的核心,”李飛飛說: “人們真的明白了,數(shù)據(jù)集跟算法一樣,對研究都至關重要?!薄叭绻阒豢?5 張貓的照片,那么你只知道這 5 個攝像機角度、照明條件和最多 5 種不同種類的貓。但是,如果你看過 500 張貓的照片,你就能從更多的例子中發(fā)現(xiàn)共同點?!?/p>

數(shù)據(jù)量多大為好?

千級別:基本要求,可以解決簡單手寫體數(shù)字識別問題,例如MNIST;

萬級別:一般要求,可以解決圖片分類問題,例如cifar-100;

千萬級:比較好,例如ImageNet,準確率2%左右,超過了人類5.1%。

2. 數(shù)據(jù)的衡量

人工智能產(chǎn)品對數(shù)據(jù)除了有量的要求,還有質的要求,衡量數(shù)據(jù)質量的標準包括四個R:關聯(lián)度relevancy(首要因素)、可信性reliability(關鍵因素)、范圍range、時效性recency。

數(shù)據(jù)獲取地址:

ICPSR:www.icpsr.umich.edu

美國政府開放數(shù)據(jù):www.data.gov

加州大學歐文分校:archive.ics.uci.edu/ml

數(shù)據(jù)堂:www.datatang.com

三、機器學習的流程

機器學習的流程可以劃分為以下幾個主要步驟:目標定義、數(shù)據(jù)收集、數(shù)據(jù)預處理、模型訓練、準確率測試、調參、模型輸出。

機器學習流程拆解

1. 目標定義

確認機器學習要解決的問題本質以及衡量的標準。

機器學習的目標可以被分為:分類、回歸、聚類、異常檢測等。

2. 數(shù)據(jù)采集

原始數(shù)據(jù)作為機器學習過程中的輸入來源是從各種渠道中被采集而來的。

3. 數(shù)據(jù)預處理

普通數(shù)據(jù)挖掘中的預處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉換、數(shù)據(jù)削減、數(shù)據(jù)離散化。

深度學習數(shù)據(jù)預處理包含數(shù)據(jù)歸一化(包含樣本尺度歸一化、逐樣本的均值相減、標準化)和數(shù)據(jù)白化。需要將數(shù)據(jù)分為三種數(shù)據(jù)集,包括用來訓練模型的訓練集(training set),開發(fā)過程中用于調參(parameter tuning)的驗證集(validation set)以及測試時所使用的測試集(test set)。

數(shù)據(jù)標注的質量對于算法的成功率至關重要。

4. 模型訓練

模型訓練流程:每當有數(shù)據(jù)輸入,模型都會輸出預測結果,而預測結果會用來調整和更新W和B的集合,接著訓練新的數(shù)據(jù),直到訓練出可以預測出接近真實結果的模型。

5. 準確率測試

用第三步數(shù)據(jù)預處理中準備好的測試集對模型進行測試。

6. 調參

參數(shù)可以分為兩類,一類是需要在訓練(學習)之前手動設置的參數(shù),即超參數(shù)(hypeparameter),另外一類是通常不需要手動設置、在訓練過程中可以被自動調整的參數(shù)(parameter)。

調參通常需要依賴經(jīng)驗和靈感來探尋其最優(yōu)值,本質上更接近藝術而非科學,是考察算法工程師能力高低的重點環(huán)節(jié)。

7. 模型輸出

模型最終輸出應用于實際應用場景的接口或數(shù)據(jù)集。

四、算法分類

機器學習囊括了多種算法,通常按照模型訓練方式和解決任務的不同進行分類。

1. 按照模型訓練方式不同,可以分為

(1)監(jiān)督學習supervised learning

定義:監(jiān)督學習指系統(tǒng)通過對帶有標記信息的訓練樣本進行學習,以盡可能準確地預測未知樣本的標記信息。

常見的監(jiān)督學習類算法包括:人工神經(jīng)網(wǎng)絡artificial neural network、貝葉斯bayesian、決策樹decision tree、線性分類器linear classifier(svm支持向量機)等。

(2)無監(jiān)督學習unsupervised learning

定義:無監(jiān)督學習指系統(tǒng)對沒有標記信息的訓練樣本進行學習,以發(fā)現(xiàn)數(shù)據(jù)中隱藏的結構性知識。

常見的無監(jiān)督學習類算法包括:人工神經(jīng)網(wǎng)絡artificial neural network、關聯(lián)規(guī)則學習association rule learning、分層聚類hierarchical clustering、聚類分析cluster analysis、異常檢測anomaly detection等。

(3)半監(jiān)督學習semi-supervised learning

含義:半監(jiān)督學習指系統(tǒng)在學習時不僅有帶有標記信息的訓練樣本,還有部分標記未知信息的訓練樣本。

常見的半監(jiān)督學習算法包括:生成模型generative models、低密度分離low-density separation、基于圖形的方法graph-based methods、聯(lián)合訓練co-training等。

(4)強化學習reinforcement learning

定義:強化學習指系統(tǒng)從不標記信息,但是會在具有某種反饋信號(即瞬間獎賞)的樣本中進行學習,以學到一種從狀態(tài)到動作的映射來最大化累積獎賞,這里的瞬時獎賞可以看成對系統(tǒng)的某個狀態(tài)下執(zhí)行某個動作的評價。

常見的強化學習算法包括:Q學習Q-learning、狀態(tài)-行動-獎勵-狀態(tài)-行動state-action-reward-state-action,SARSA、DQN deep Q network、策略梯度算法policy gradients、基于模型強化學習model based RL、時序差分學習temporal different learning等。

(5)遷移學習transfer learning

定義:遷移學習指通過從已學習的相關任務中轉移知識來改進學習的新任務,雖然大多數(shù)機器學習算法都是為了解決單個任務而設計的,但是促進遷移學習的算法的開發(fā)是機器學習社區(qū)持續(xù)關注的話題。

遷移學習對人類來說很常見,例如,我們可能會發(fā)現(xiàn)學習識別蘋果可能有助于識別梨,或者學習彈奏電子琴可能有助于學習鋼琴。

常見的遷移學習算法包括:歸納式遷移學習inductive transfer learning、直推式遷移學習transductive transfer learning、無監(jiān)督式遷移學習unsupervised transfer learning、傳遞式遷移學習transitive transfer learning等。

(6)深度學習deep learning

定義:深度學習是指多層的人工神經(jīng)網(wǎng)絡和訓練它的方法。一層神經(jīng)網(wǎng)絡會把大量矩陣數(shù)字作為輸入,通過非線性激活方法取權重,再產(chǎn)生另一個數(shù)據(jù)集合作為輸出。

這就像生物神經(jīng)大腦的工作機理一樣,通過合適的矩陣數(shù)量,多層組織鏈接一起,形成神經(jīng)網(wǎng)絡“大腦”進行精準復雜的處理,就像人們識別物體標注圖片一樣。

常見的深度學習算法包括:深度信念網(wǎng)絡deep belief machines、深度卷積神經(jīng)網(wǎng)絡deep convolutional neural networks、深度遞歸神經(jīng)網(wǎng)絡deep recurrent neural networks、深度波爾茲曼機deep boltzmann machine,DBM、棧式自動編碼器stacked autoencoder、生成對抗網(wǎng)絡generative adversarial networks等。

遷移學習與半監(jiān)督學習的區(qū)別:遷移學習的初步模型是完整的,半監(jiān)督學習的已標注部分無法形成完整的模型。

2. 按照解決任務的不同分類,可以分為

(1)二分類算法two-class classification,解決非黑即白的問題。

(2)多分類算法muti-class classification,解決不是非黑即白的多種分類問題。

(3)回歸算法regression,回歸問題通常被用來預測具體的數(shù)值而非分類。除了返回的結果不同,其他方法與分類問題類似。我們將定量輸出,或者連續(xù)變量預測稱為回歸;將定性輸出,或者離散變量預測稱為分類。

(4)聚類算法clustering,聚類的目標是發(fā)現(xiàn)數(shù)據(jù)的潛在規(guī)律和結構。聚類通常被用做描述和衡量不同數(shù)據(jù)源間的相似性,并把數(shù)據(jù)源分類到不同的簇中。

(5)異常檢測anomaly detection,異常檢測是指對數(shù)據(jù)中存在的不正常或非典型的分體進行檢測和標志,有時也稱為偏差檢測。異常檢測看起來和監(jiān)督學習問題非常相似,都是分類問題。都是對樣本的標簽進行預測和判斷,但是實際上兩者的區(qū)別非常大,因為異常檢測中的正樣本(異常點)非常小。

3. 對AI產(chǎn)品經(jīng)理的要求

產(chǎn)品經(jīng)理應了解和掌握每種常見算法的基本邏輯、最佳使用場景以及每種算法對數(shù)據(jù)的需求。

這樣有助于:

建立必要的知識體系以與研發(fā)人員進行良好的交流;

在團隊需要的時候提供必要的幫助;

識別和評估產(chǎn)品迭代過程中的風險、成本、預期效果等。

五、各類算法的對比

1. 算法與學習過程的對比

監(jiān)督學習——上課:有求知欲的學生從老師那里獲取知識、信息,老師提供對錯指示、告知最終答案的學習過程;

無監(jiān)督學習——自習:沒有老師的情況下,學生自習的過程;

強化學習下——自測:沒有老師提示的情況下,自己對預測的結果進行評估的方法。

2. 算法適用場景的影響因素

業(yè)務核心問題;

數(shù)據(jù)大小、質量;

計算時間要求;

算法精度要求。

3. 算法優(yōu)缺點及適用場景

注意:

(1)目前監(jiān)督學習和強化學習是目前應用范圍最廣且效果最好的機器學習方式。

(2)深度學習將在后續(xù)的文章中單獨介紹。

(3)半監(jiān)督學習依賴以下3個模型假設才能確保它良好的學習性能。

1)平滑假設(Smoothness Assumption)

位于稠密數(shù)據(jù)區(qū)域的兩個距離很近的樣例的類標簽相似,當兩個樣例北稀疏區(qū)域分開時,它們的類標簽趨于不同。

2)聚類假設(Cluster Assumption)

當兩個樣例位于同一聚類簇時,它們在很大的概率在有相同的類標簽。這個假設的等價定義為低密度分類假設(Low Density Separation Assumption),即分類決策邊界應該穿過稀疏數(shù)據(jù)區(qū)域,而避免將稠密數(shù)據(jù)區(qū)域的樣例劃分到?jīng)Q策邊界兩側。

3)流形假設(Manifold Assumption)

將高維數(shù)據(jù)嵌入到低維流形中,當兩個樣例位于低維流形中的一個小局部鄰域內時,它們具有相似的類標簽。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1819

    文章

    50218

    瀏覽量

    266512
  • 機器學習
    +關注

    關注

    67

    文章

    8560

    瀏覽量

    137152
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    算法工程師需要具備哪些技能?

    算法工程師需要掌握一系列跨學科的技能,涵蓋數(shù)學基礎、編程能力、算法理論、工程實踐以及業(yè)務理解等多個方面。 以下是具體技能及學習建議: 線性代數(shù)核心內容:矩陣運算、特征值分解、向量空間等。應用場
    發(fā)表于 02-27 10:53

    從0到1,10+年資深LabVIEW專家,手把手教你攻克機器視覺+深度學習(5000分鐘實戰(zhàn)課)

    “告別檢測系統(tǒng)能力缺陷!10+年LabVIEW視覺資深專家手把手教你:5000+分鐘高清教程(含工具、算法原理、實戰(zhàn)操作、項目優(yōu)化全流程講解)”——從傳統(tǒng)視覺算法→深度學習建?!I(yè)級
    的頭像 發(fā)表于 12-02 08:07 ?678次閱讀
    從0到1,10+年資深LabVIEW專家,手把手教你攻克<b class='flag-5'>機器</b>視覺+深度<b class='flag-5'>學習</b>(5000分鐘實戰(zhàn)課)

    量子機器學習入門:三種數(shù)據(jù)編碼方法對比與應用

    在傳統(tǒng)機器學習中數(shù)據(jù)編碼確實相對直觀:獨熱編碼處理類別變量,標準化調整數(shù)值范圍,然后直接輸入模型訓練。整個過程更像是數(shù)據(jù)清洗,而非核心算法組件。量子機器
    的頭像 發(fā)表于 09-15 10:27 ?889次閱讀
    量子<b class='flag-5'>機器</b><b class='flag-5'>學習</b>入門:三種數(shù)據(jù)編碼方法對比與應用

    AI 驅動三維逆向:點云降噪算法工具與機器學習建模能力的前沿應用

    在三維逆向工程領域,傳統(tǒng)方法在處理復雜數(shù)據(jù)和構建高精度模型時面臨諸多挑戰(zhàn)。隨著人工智能(AI)技術的發(fā)展,點云降噪算法工具與機器學習建模能力的應用,為三維逆向工程帶來了創(chuàng)新性解決方案,顯著提升
    的頭像 發(fā)表于 08-20 10:00 ?815次閱讀
    AI 驅動三維逆向:點云降噪<b class='flag-5'>算法</b>工具與<b class='flag-5'>機器</b><b class='flag-5'>學習</b>建模能力的前沿應用

    PID控制算法學習筆記資料

    用于新手學習PID控制算法。
    發(fā)表于 08-12 16:22 ?7次下載

    FPGA在機器學習中的具體應用

    ,越來越多地被應用于機器學習任務中。本文將探討 FPGA 在機器學習中的應用,特別是在加速神經(jīng)網(wǎng)絡推理、優(yōu)化算法和提升處理效率方面的優(yōu)勢。
    的頭像 發(fā)表于 07-16 15:34 ?3025次閱讀

    【嘉楠堪智K230開發(fā)板試用體驗】K230機器視覺相關功能體驗

    K230開發(fā)板攝像頭及AI功能測評 攝像頭作為機器視覺應用的基礎,能夠給機器學習模型提供輸入,提供輸入的質量直接影響機器學習模型的效果。 K
    發(fā)表于 07-08 17:25

    機器學習異常檢測實戰(zhàn):用Isolation Forest快速構建無標簽異常檢測系統(tǒng)

    本文轉自:DeepHubIMBA無監(jiān)督異常檢測作為機器學習領域的重要分支,專門用于在缺乏標記數(shù)據(jù)的環(huán)境中識別異常事件。本文深入探討異常檢測技術的理論基礎與實踐應用,通過IsolationForest
    的頭像 發(fā)表于 06-24 11:40 ?1554次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>異常檢測實戰(zhàn):用Isolation Forest快速構建無標簽異常檢測系統(tǒng)

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】視覺實現(xiàn)的基礎算法的應用

    視覺巡線,展示了如何從數(shù)據(jù)采集、模型訓練到機器人部署的完整流程。 值得注意的是,深度學習模型的實時性對機器人計算資源提出了較高要求,優(yōu)化模型(如TensorRT加速)是實際部署的關鍵。
    發(fā)表于 05-03 19:41

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】機器人入門的引路書

    的限制和調控) 本書還有很多前沿技術項目的擴展 比如神經(jīng)網(wǎng)絡識別例程,機器學習圖像識別的原理,yolo圖像追蹤的原理 機器學習訓練三大點: 先準備一個基本的模型結構 和訓練時的反饋函
    發(fā)表于 04-30 01:05

    機器人主控芯片平臺有哪些 機器人主控芯片一文搞懂

    AI芯片在人形機器人中的應用越來越廣泛。這些AI芯片專門設計用于執(zhí)行人工智能算法,如深度學習、機器學習等。
    的頭像 發(fā)表于 04-25 16:26 ?8130次閱讀
    <b class='flag-5'>機器</b>人主控芯片平臺有哪些  <b class='flag-5'>機器</b>人主控芯片一文搞懂

    基于RV1126開發(fā)板實現(xiàn)自學習圖像分類方案

    在RV1126開發(fā)板上實現(xiàn)自學習:在識別前對物體圖片進行模型學習,訓練完成后通過算法分類得出圖像的模型ID。 方案設計邏輯流程圖,方案代碼分為分為兩個業(yè)務
    的頭像 發(fā)表于 04-21 13:37 ?11次閱讀
    基于RV1126開發(fā)板實現(xiàn)自<b class='flag-5'>學習</b>圖像分類方案

    復合機器人為什么要使用單點糾偏算法?

    復合機器人單點糾偏算法
    的頭像 發(fā)表于 04-20 14:59 ?824次閱讀
    復合<b class='flag-5'>機器</b>人為什么要使用單點糾偏<b class='flag-5'>算法</b>?

    基于RV1126開發(fā)板的AI算法開發(fā)流程

    AI算法開發(fā)流程由需求分析到準備數(shù)據(jù),然后到選取模型,訓練模型,接著模型轉換后進行模型部署
    的頭像 發(fā)表于 04-18 14:03 ?2477次閱讀
    基于RV1126開發(fā)板的AI<b class='flag-5'>算法</b>開發(fā)<b class='flag-5'>流程</b>

    基于RV1126開發(fā)板的AI算法開發(fā)流程

    AI算法開發(fā)流程由需求分析到準備數(shù)據(jù),然后到選取模型,訓練模型,接著模型轉換后進行模型部署
    的頭像 發(fā)表于 04-18 10:47 ?1162次閱讀
    基于RV1126開發(fā)板的AI<b class='flag-5'>算法</b>開發(fā)<b class='flag-5'>流程</b>