91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

可視化數(shù)據(jù)科學(xué)中的概率分布可幫你更好地理解各種分布

電子設(shè)計 ? 來源:電子設(shè)計 ? 作者:電子設(shè)計 ? 2020-12-14 23:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在某些分布假設(shè)下,某些機器學(xué)習(xí)模型被設(shè)計為最佳工作。因此,了解我們正在使用哪個發(fā)行版可以幫助我們確定最適合使用哪些模型。

介紹

擁有良好的統(tǒng)計背景可能對數(shù)據(jù)科學(xué)家的日常生活大有裨益。每次我們開始探索新的數(shù)據(jù)集時,我們首先需要進行探索性數(shù)據(jù)分析(EDA),以了解某些功能的主要特征是什么。如果我們能夠了解數(shù)據(jù)分布中是否存在任何模式,則可以量身定制最適合我們的案例研究的機器學(xué)習(xí)模型。這樣,我們將能夠在更短的時間內(nèi)獲得更好的結(jié)果(減少優(yōu)化步驟)。實際上,某些機器學(xué)習(xí)模型被設(shè)計為在某些分布假設(shè)下效果最佳。因此,了解我們正在使用哪些發(fā)行版可以幫助我們確定最適合使用哪些模型。

同類型的數(shù)據(jù)

我們正在與一個數(shù)據(jù)集工作,每次,我們的數(shù)據(jù)代表一個樣本人口。然后,使用此樣本,我們可以嘗試了解其主要模式,以便我們可以使用它對整個人口進行預(yù)測(即使我們從未有機會檢查整個人口)。

假設(shè)我們要根據(jù)一組特定功能來預(yù)測房屋的價格。我們也許可以在線找到一個包含舊金山所有房價的數(shù)據(jù)集(我們的樣本),并且進行一些統(tǒng)計分析之后,我們也許可以對美國任何其他城市的房價做出相當(dāng)準(zhǔn)確的預(yù)測(我們的人口)。

數(shù)據(jù)集由兩種主要類型的數(shù)據(jù)組成:數(shù)字(例如整數(shù),浮點數(shù))和分類(例如名稱,筆記本電腦品牌)。

數(shù)值數(shù)據(jù)還可以分為其他兩類:離散繼續(xù)。離散數(shù)據(jù)只能采用某些值(例如學(xué)校中的學(xué)生人數(shù)),而連續(xù)數(shù)據(jù)可以采用任何實數(shù)或分?jǐn)?shù)值(例如身高和體重的概念)。

從離散隨機變量中,可以計算出概率質(zhì)量函數(shù),而從連續(xù)隨機變量中,可以得出概率密度函數(shù)。

概率質(zhì)量函數(shù)給出了一個變量可以等于某個值的概率,相反,概率密度函數(shù)的值本身并不是概率,因為它們首先需要在給定范圍內(nèi)進行積分。

自然界中存在許多不同的概率分布(概率分布流程圖),在本文中,我將向您介紹數(shù)據(jù)科學(xué)中最常用的概率分布。

首先,讓我們導(dǎo)入所有必需的庫:

伯努利分布

伯努利分布是最容易理解的分布之一,可用作導(dǎo)出更復(fù)雜分布的起點。

這種分布只有兩個可能的結(jié)果和一個試驗。

一個簡單的例子可以是拋擲偏斜/無偏硬幣。在此示例中,可以認(rèn)為結(jié)果可能是正面的概率等于p,而對于反面則是(1-p)(包含所有可能結(jié)果的互斥事件的概率總和為1)。

在下圖中,我提供了一個偏向硬幣情況下伯努利分布的例子。

均勻分布

均勻分布可以很容易地從伯努利分布中得出。在這種情況下,結(jié)果的數(shù)量可能不受限制,并且所有事件的發(fā)生概率均相同。

例如,想象一下一個骰子的擲骰。在這種情況下,存在多個可能的事件,每個事件都有相同的發(fā)生概率。

二項分布

二項分布可以被認(rèn)為是遵循伯努利分布的事件結(jié)果的總和。因此,二項分布用于二元結(jié)果事件,成功和失敗的可能性在所有后續(xù)試驗中均相同。此分布采用兩個參數(shù)作為輸入:事件發(fā)生的次數(shù)和分配給兩個類別之一的概率。

一個實際的二項式分布的簡單示例可以是重復(fù)一定次數(shù)的有偏/無偏硬幣的拋擲。

改變偏差量將改變分布的外觀(如下圖所示)。

二項分布的主要特征是:

  • 給定多個試驗,每個試驗彼此獨立(一項試驗的結(jié)果不會影響另一項試驗)。
  • 每個試驗只能導(dǎo)致兩個可能的結(jié)果(例如,獲勝或失敗),其概率分別為p(1- p)。

如果給出成功的概率(p)和試驗次數(shù)(n),則可以使用以下公式計算這n次試驗中的成功概率(x)(下圖)。

正態(tài)(高斯)分布

正態(tài)分布是數(shù)據(jù)科學(xué)中最常用的分布之一。我們?nèi)粘I钪邪l(fā)生的許多常見現(xiàn)象都遵循正態(tài)分布,例如:經(jīng)濟中的收入分布,學(xué)生的平均報告,人口的平均身高等。此外,小的隨機變量的總和還導(dǎo)致:通常遵循正態(tài)分布(中心極限定理)。

“在概率論中,中心極限定理CLT)確定,在某些情況下,當(dāng)添加獨立隨機變量時,即使原始變量本身未呈正態(tài)分布,其適當(dāng)歸一化的和也趨于正態(tài)分布。”

—維基百科

可以幫助我們識別正態(tài)分布的一些特征是:

  • 曲線在中心對稱。因此,均值,眾數(shù)和中位數(shù)都等于相同的值,從而使所有值圍繞均值對稱分布。
  • 分布曲線下的面積等于1(所有概率之和必須等于1)。

可以使用以下公式得出正態(tài)分布(下圖)。

使用正態(tài)分布時,分布平均值和標(biāo)準(zhǔn)偏差起著非常重要的作用。如果我們知道它們的值,則只需檢查概率分布即可輕松找出預(yù)測精確值的概率(下圖)。實際上,由于分布特性,68%的數(shù)據(jù)位于平均值的一個標(biāo)準(zhǔn)偏差范圍內(nèi),95%的數(shù)據(jù)位于平均值的兩個標(biāo)準(zhǔn)偏差范圍內(nèi),99.7%的數(shù)據(jù)位于平均值的三個標(biāo)準(zhǔn)偏差范圍內(nèi)。

許多機器學(xué)習(xí)模型被設(shè)計為遵循正態(tài)分布的最佳使用數(shù)據(jù)。一些例子是:

  • 高斯樸素貝葉斯分類器
  • 線性判別分析
  • 二次判別分析
  • 基于最小二乘的回歸模型

此外,在某些情況下,還可以通過應(yīng)用對數(shù)和平方根之類的轉(zhuǎn)換將非正常數(shù)據(jù)轉(zhuǎn)換為正常形式。

泊松分布

泊松分布通常用于查找事件可能發(fā)生或不知道事件通常發(fā)生的頻率。此外,泊松分布還可用于預(yù)測事件在給定時間段內(nèi)可能發(fā)生多少次。

例如,保險公司經(jīng)常使用泊松分布來進行風(fēng)險分析(例如,在預(yù)定時間范圍內(nèi)預(yù)測車禍?zhǔn)鹿实臄?shù)量),以決定汽車保險的價格。

當(dāng)使用Poisson Distributions時,我們可以確信發(fā)生不同事件之間的平均時間,但是事件發(fā)生的確切時刻在時間上是隨機間隔的。

泊松分布可以使用以下公式建模(下圖),其中λ表示一個時期內(nèi)可能發(fā)生的預(yù)期事件數(shù)。

描述泊松過程的主要特征是:

  1. 事件彼此獨立(如果事件發(fā)生,則不會改變另一個事件發(fā)生的可能性)。
  2. 一個事件可以發(fā)生任何次數(shù)(在定義的時間段內(nèi))。
  3. 兩個事件不能同時發(fā)生。
  4. 事件發(fā)生之間的平均速率是恒定的。

在下圖中,顯示了改變周期(λ)中可能發(fā)生的事件的預(yù)期數(shù)目如何改變泊松分布。

指數(shù)分布

最后,指數(shù)分布用于對不同事件發(fā)生之間的時間進行建模。

舉例來說,假設(shè)我們在一家餐廳工作,并且希望預(yù)測到到不同顧客進入餐廳之間的時間間隔。針對此類問題使用指數(shù)分布,可能是一個理想的起點。

指數(shù)分布的另一個常見應(yīng)用是生存分析(例如,設(shè)備/機器的預(yù)期壽命)。

指數(shù)分布由參數(shù)λ調(diào)節(jié)。λ值越大,指數(shù)曲線到十年的速度就越快(下圖)。

指數(shù)分布使用以下公式建模(下圖)。

如果你喜歡本文的話,歡迎點贊轉(zhuǎn)發(fā)!謝謝。

看完別走還有驚喜!

我精心整理了計算機/Python/機器學(xué)習(xí)/深度學(xué)習(xí)相關(guān)的2TB視頻課與書籍,價值1W元。關(guān)注微信公眾號“計算機與AI”,點擊下方菜單即可獲取網(wǎng)盤鏈接。

?審核編輯:符乾江

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    KubePi:開源Kubernetes可視化管理面板,讓集群管理如此簡單

    :人人可用的開源數(shù)據(jù)可視化分析工具,可用于Kubernetes集群數(shù)據(jù)的實時可視化分析。 MeterSphere :開源持續(xù)測試平臺,支持Kubernetes環(huán)境
    發(fā)表于 02-11 12:53

    怕故障?怕擴展難?分布可視化控制:給足場景安全

    可視化控制系統(tǒng),正是為破解復(fù)雜場景需求而生的智能解決方案。 作為以分布式網(wǎng)絡(luò)架構(gòu)為基礎(chǔ)的核心控制系統(tǒng),它打破了傳統(tǒng)設(shè)備的功能壁壘,將音頻處理、視頻拼接、網(wǎng)絡(luò)傳輸、環(huán)境監(jiān)控、可視化控制等多元能力深度集成,通過數(shù)字
    的頭像 發(fā)表于 11-09 17:27 ?562次閱讀

    訊維如何推動分布可視化控制系統(tǒng)全國產(chǎn)

    在數(shù)字轉(zhuǎn)型深入推進的今天,分布可視化控制系統(tǒng)已成為指揮調(diào)度、遠程醫(yī)療、能源管控等關(guān)鍵領(lǐng)域的 "神經(jīng)中樞",其技術(shù)自主性直接關(guān)系到國家關(guān)鍵基礎(chǔ)設(shè)施安全與產(chǎn)業(yè)發(fā)展主動權(quán)。
    的頭像 發(fā)表于 11-05 09:43 ?588次閱讀

    十大趨勢破局!分布可視化控制系統(tǒng):從智能到低碳,重塑產(chǎn)業(yè)數(shù)字控制新生態(tài)

    當(dāng)前,工業(yè)制造、城市管理、農(nóng)業(yè)生產(chǎn)等領(lǐng)域正面臨 “數(shù)據(jù)割裂、響應(yīng)滯后、安全風(fēng)險、場景適配難” 等核心痛點。分布可視化控制系統(tǒng)作為數(shù)字轉(zhuǎn)型的 “神經(jīng)中樞”,其發(fā)展已從 “技術(shù)堆砌”
    的頭像 發(fā)表于 10-30 09:56 ?301次閱讀
    十大趨勢破局!<b class='flag-5'>分布</b>式<b class='flag-5'>可視化</b>控制系統(tǒng):從智能到低碳,重塑產(chǎn)業(yè)數(shù)字<b class='flag-5'>化</b>控制新生態(tài)

    從 “單一控制” 到 “智能可視”:分布式系統(tǒng)與傳統(tǒng)音視頻控制系統(tǒng)的關(guān)鍵區(qū)別

    分布可視化控制系統(tǒng)與傳統(tǒng)的音視頻控制系統(tǒng)的區(qū)別主要體現(xiàn)在以下幾個方面: 1.系統(tǒng)架構(gòu):分布可視化控制系統(tǒng)采用分布式架構(gòu),將音視頻處理、
    的頭像 發(fā)表于 10-21 10:52 ?427次閱讀

    基于 HT 搭建的農(nóng)林牧數(shù)據(jù)可視化監(jiān)控平臺

    農(nóng)業(yè)場景應(yīng)用的深度適配。 其中,HT for Web GIS 產(chǎn)品具備多類型地圖服務(wù)支持能力,可將地理信息系統(tǒng)(GIS)數(shù)據(jù)以豐富的可視化形式展示與疊加,為農(nóng)業(yè)空間信息分析提供全新模式 —— 能精準(zhǔn)呈現(xiàn)農(nóng)林牧場景
    的頭像 發(fā)表于 08-29 14:51 ?592次閱讀
    基于 HT 搭建的農(nóng)林牧<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>可視化</b>監(jiān)控平臺

    如何使用協(xié)議分析儀進行數(shù)據(jù)分析與可視化

    使用協(xié)議分析儀進行數(shù)據(jù)分析與可視化,需結(jié)合數(shù)據(jù)捕獲、協(xié)議解碼、統(tǒng)計分析及可視化工具,將原始數(shù)據(jù)轉(zhuǎn)化為
    發(fā)表于 07-16 14:16

    測、可控、可調(diào)、可觀——分布式光伏監(jiān)控系統(tǒng)的“智慧四驅(qū)”

    來自不同廠商。 環(huán)境復(fù)雜:局部遮擋、溫度差異、用戶用電波動頻繁。 2.光伏四 系統(tǒng)通過以下方式解決分布式場景的痛點: 測:實現(xiàn)低壓分布式光伏統(tǒng)計
    的頭像 發(fā)表于 05-22 09:42 ?1513次閱讀
    <b class='flag-5'>可</b>測、可控、可調(diào)、可觀——<b class='flag-5'>分布</b>式光伏監(jiān)控系統(tǒng)的“智慧四驅(qū)”

    結(jié)構(gòu)可視化:利用數(shù)據(jù)編輯器剖析數(shù)據(jù)內(nèi)在架構(gòu)?

    結(jié)構(gòu)可視化聚焦于展示數(shù)據(jù)的內(nèi)部結(jié)構(gòu)和各部分之間的關(guān)系,使企業(yè)能夠深入理解數(shù)據(jù)的組織方式和層次體系,從而更好地進行數(shù)據(jù)管理和分析。通過結(jié)構(gòu)
    的頭像 發(fā)表于 05-07 18:42 ?716次閱讀

    工業(yè)設(shè)備數(shù)據(jù)集中監(jiān)控可視化管理平臺是什么

    工業(yè)設(shè)備數(shù)據(jù)集中監(jiān)控可視化管理平臺是一種用于整合、監(jiān)控和可視化工業(yè)設(shè)備數(shù)據(jù)的綜合性系統(tǒng),旨在幫助企業(yè)實現(xiàn)設(shè)備數(shù)據(jù)的集中管理、實時監(jiān)控和
    的頭像 發(fā)表于 05-06 11:10 ?1104次閱讀

    VirtualLab Fusion應(yīng)用:3D系統(tǒng)可視化

    描述和F-Theta透鏡的應(yīng)用示例。 光學(xué)系統(tǒng)的3D-可視化 VirtualLab Fusion提供的工具可以實現(xiàn)光學(xué)系統(tǒng)的3D可視化,因此可以用于檢查元件的位置,以及快速了解系統(tǒng)內(nèi)部的光傳播情況
    發(fā)表于 04-30 08:47

    可視化組態(tài)物聯(lián)網(wǎng)平臺是什么

    可視化組態(tài)物聯(lián)網(wǎng)平臺是物聯(lián)網(wǎng)技術(shù)與組態(tài)技術(shù)相結(jié)合的產(chǎn)物,是通過提供豐富的圖形組件和可視化元素,讓用戶能夠以直觀、便捷的方式對物聯(lián)網(wǎng)數(shù)據(jù)進行監(jiān)控、分析和管理的平臺。以下是其具體介紹:
    的頭像 發(fā)表于 04-21 10:40 ?919次閱讀

    可視化組態(tài)數(shù)據(jù)管理平臺是什么

    可視化組態(tài)數(shù)據(jù)管理平臺是一種用于工業(yè)自動、物聯(lián)網(wǎng)、能源管理等領(lǐng)域的軟件平臺,它結(jié)合了可視化和組態(tài)技術(shù),幫助用戶實現(xiàn)數(shù)據(jù)的采集、管理、展示和
    的頭像 發(fā)表于 04-21 10:00 ?755次閱讀

    工業(yè)數(shù)據(jù)采集形成可視化數(shù)據(jù)看板解決方案

    可視化數(shù)據(jù)看板是一個直觀、便捷的信息展示界面。通過把車間的實時生產(chǎn)數(shù)據(jù)、訂單進度、設(shè)備狀態(tài)、產(chǎn)能效率率等,用清晰、可視化的形式展示出來,讓管理者和員工都能一目了然,為企業(yè)管理者提供
    的頭像 發(fā)表于 03-19 14:31 ?1200次閱讀
    工業(yè)<b class='flag-5'>數(shù)據(jù)</b>采集形成<b class='flag-5'>可視化</b><b class='flag-5'>數(shù)據(jù)</b>看板解決方案