91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

能夠0.052秒打開(kāi)100GB數(shù)據(jù)的一個(gè)高性能Python庫(kù)

人工智能與大數(shù)據(jù)技術(shù) ? 來(lái)源:開(kāi)源最前線(xiàn) ? 作者:開(kāi)源最前線(xiàn) ? 2021-05-20 11:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)今的數(shù)據(jù)集越來(lái)越大,臺(tái)式機(jī)的內(nèi)存甚至都裝不下,更不用說(shuō)你的筆記本電腦了,盡管如此,在大數(shù)據(jù)時(shí)代,我們總是避免不了要使用大數(shù)據(jù)集,于是Vaex誕生了。

什么是Vaex?

Vaex是一個(gè)高性能Python庫(kù),可以可視化和探索大型表格數(shù)據(jù)集,它可以在 N 維網(wǎng)格上計(jì)算每秒超過(guò)十億(10^9)個(gè)對(duì)象 / 行的統(tǒng)計(jì)信息,例如均值、總和、計(jì)數(shù)、標(biāo)準(zhǔn)差等, 磁盤(pán)上大小超過(guò)100GB的數(shù)據(jù),用Vaex只需要0.052秒就可以打開(kāi)。

使用直方圖、密度圖和三維體繪制完成可視化,從而可以交互式探索大數(shù)據(jù)。Vaex 使用內(nèi)存映射、零內(nèi)存復(fù)制策略獲得最佳性能(不浪費(fèi)內(nèi)存)。

Vaex具有以下功能特性:

基于Python數(shù)據(jù)科學(xué)站(例如Panda、Scikit-Learn、arrow、xgboost、lightgbm),標(biāo)準(zhǔn)API易于采用。為Jupyter環(huán)境量身定制。

電腦運(yùn)算,結(jié)合了內(nèi)存映射,復(fù)雜的表達(dá)系統(tǒng)和快速核外算法。有效地可視化和探索大型數(shù)據(jù)集,并在一臺(tái)機(jī)器上構(gòu)建機(jī)器學(xué)習(xí)模型。

基準(zhǔn)測(cè)試,每秒可視化10億個(gè)樣本。與標(biāo)準(zhǔn)實(shí)現(xiàn)相比,PCA轉(zhuǎn)換速度提高了10倍,可在2分鐘內(nèi)處理10億個(gè)樣本。完全超出核心。

高效

Vaex不僅僅是Panda的替代品。盡管在執(zhí)行諸如的表達(dá)式時(shí),它具有類(lèi)似于panda的API用于列訪(fǎng)問(wèn)np.sqrt(ds.x**2 + ds.y**2),但不會(huì)進(jìn)行任何計(jì)算。而是創(chuàng)建一個(gè)vaex表達(dá)式對(duì)象,并在打印輸出時(shí)顯示一些預(yù)覽值。

058df76e-b48d-11eb-bf61-12bb97331649.png

使用表達(dá)式系統(tǒng),vaex僅在需要時(shí)執(zhí)行計(jì)算。同樣,數(shù)據(jù)也不必是本地的:表達(dá)式可以通過(guò)發(fā)送的方式,統(tǒng)計(jì)信息可以遠(yuǎn)程計(jì)算,這是vaex-server程序包提供的。

虛擬列

我們還可以將表達(dá)式添加到DataFrame中,從而生成虛擬列。虛擬列的行為類(lèi)似于常規(guī)列,但不占用任何內(nèi)存。Vaex在實(shí)列和虛列之間沒(méi)有區(qū)別,

059f9dca-b48d-11eb-bf61-12bb97331649.png

如果表達(dá)式在運(yùn)行時(shí)真的很復(fù)雜怎么辦?通過(guò)使用Pythran或Numba,我們可以使用手動(dòng)實(shí)時(shí)(JIT)編譯來(lái)優(yōu)化計(jì)算。

05d81e48-b48d-11eb-bf61-12bb97331649.png

遠(yuǎn)程數(shù)據(jù)幀甚至支持JIT版本的表達(dá)式,擔(dān)心RAM不夠?你還可以選擇以RAM為代價(jià)擠出額外的性能。

05e23234-b48d-11eb-bf61-12bb97331649.png

可視化

進(jìn)行有意義的繪圖和可視化是了解數(shù)據(jù)的最佳方法。。但是,當(dāng)你的DataFrame包含10億行時(shí),制作標(biāo)準(zhǔn)散點(diǎn)圖不僅會(huì)花費(fèi)很長(zhǎng)時(shí)間,而且會(huì)導(dǎo)致毫無(wú)意義且難以理解的可視化。

讓我們看看這些想法的一些實(shí)際例子。我們可以使用直方圖可視化單個(gè)列的內(nèi)容。

05ede08e-b48d-11eb-bf61-12bb97331649.png

可以將其擴(kuò)展為兩個(gè)維度,從而生成熱圖。我們可以像典型的熱圖那樣簡(jiǎn)單地計(jì)算落入每個(gè)樣本中,而不是計(jì)算平均值,取總和的對(duì)數(shù)或幾乎任何自定義統(tǒng)計(jì)量。

我們甚至可以使用ipyvolume進(jìn)行3維體積渲染。

原文標(biāo)題:0.052秒打開(kāi)100GB數(shù)據(jù)!這個(gè)Python開(kāi)源庫(kù)牛X了

文章出處:【微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • python
    +關(guān)注

    關(guān)注

    57

    文章

    4876

    瀏覽量

    90039
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    9063

    瀏覽量

    143761

原文標(biāo)題:0.052秒打開(kāi)100GB數(shù)據(jù)!這個(gè)Python開(kāi)源庫(kù)牛X了

文章出處:【微信號(hào):TheBigData1024,微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    高性能ADL5243:100 MHz至4000 MHz RF/IF數(shù)字控制VGA的設(shè)計(jì)與應(yīng)用

    高性能ADL5243:100 MHz至4000 MHz RF/IF數(shù)字控制VGA的設(shè)計(jì)與應(yīng)用 在當(dāng)今高速發(fā)展的無(wú)線(xiàn)通信和射頻技術(shù)領(lǐng)域,高性能的可變?cè)鲆娣糯笃鳎╒GA)是不可或缺的關(guān)鍵組件。今天,我們
    的頭像 發(fā)表于 01-15 09:10 ?239次閱讀

    國(guó)產(chǎn)高性能ONFI IP解決方案全解析

    )時(shí)代,數(shù)據(jù)存儲(chǔ)的吞吐量瓶頸日益凸顯,高性能的ONFI IP能夠確保大規(guī)模數(shù)據(jù)的高效存取,是SSD及先進(jìn)存儲(chǔ)系統(tǒng)的核心技術(shù)基石。2. 奎芯科技 ONFI IP 的核心技術(shù)規(guī)格奎芯科技提
    發(fā)表于 01-13 16:15

    深度剖析LM5107:高性能100V/1.4 - A峰值半橋柵極驅(qū)動(dòng)器

    深度剖析LM5107:高性能100V/1.4 - A峰值半橋柵極驅(qū)動(dòng)器 在電源管理和功率轉(zhuǎn)換領(lǐng)域,柵極驅(qū)動(dòng)器是個(gè)至關(guān)重要的組件。今天我們要深入探討的是德州儀器(TI)的LM5107,
    的頭像 發(fā)表于 01-11 18:05 ?1093次閱讀

    開(kāi)加載”背后:場(chǎng)鴻蒙發(fā)起的“性能革命”

    最近,不少手持幾年前舊款華為設(shè)備的用戶(hù)驚訝地發(fā)現(xiàn),次系統(tǒng)升級(jí)后仿佛被注入了新的活力:應(yīng)用點(diǎn)就開(kāi),頁(yè)面滑動(dòng)流暢跟手,甚至快速下拉信息流時(shí)惱人的“小白塊”和轉(zhuǎn)圈等待的時(shí)間也大大減少。 日前
    的頭像 發(fā)表于 12-30 14:28 ?376次閱讀
    “<b class='flag-5'>秒</b>啟<b class='flag-5'>秒</b><b class='flag-5'>開(kāi)</b><b class='flag-5'>秒</b>加載”背后:<b class='flag-5'>一</b>場(chǎng)鴻蒙發(fā)起的“<b class='flag-5'>性能</b>革命”

    炎核開(kāi)源開(kāi)放平臺(tái)上架推出OpenSparseBlas高性能稀疏計(jì)算庫(kù)

    在科學(xué)計(jì)算與工程仿真領(lǐng)域,高效處理大規(guī)模稀疏矩陣運(yùn)算是提升整體計(jì)算效能的關(guān)鍵。為此,我們?cè)谘缀碎_(kāi)源開(kāi)放平臺(tái)上架推出 OpenSparseBlas——個(gè)專(zhuān)為稀疏矩陣/向量計(jì)算而打造的高性能稀疏計(jì)算
    的頭像 發(fā)表于 12-15 15:18 ?639次閱讀

    文了解Mojo編程語(yǔ)言

    Mojo 是種由 Modular AI 公司開(kāi)發(fā)的編程語(yǔ)言,旨在將 Python 的易用性與 C 語(yǔ)言的高性能相結(jié)合,特別適合人工智能(AI)、高性能計(jì)算(HPC)和系統(tǒng)級(jí)編程場(chǎng)景。
    發(fā)表于 11-07 05:59

    數(shù)據(jù)全復(fù)用高性能池化層設(shè)計(jì)思路分享

    大家好,本團(tuán)隊(duì)此次分享的內(nèi)容為可實(shí)現(xiàn)數(shù)據(jù)全復(fù)用高性能池化層設(shè)計(jì)思路,核心部分主要由以下3個(gè)部分組成; 1.SRAM讀取模塊;——池化使用的存儲(chǔ)為SRAM 基于SRAM讀與寫(xiě)時(shí)序,約束池化模塊讀與寫(xiě)
    發(fā)表于 10-29 07:10

    華納云為游戲數(shù)據(jù)庫(kù)選擇高性能NVMe SSD存儲(chǔ)

    游戲數(shù)據(jù)庫(kù)對(duì)速度、可靠性和可擴(kuò)展性有極高要求。隨著在線(xiàn)游戲的發(fā)展,開(kāi)發(fā)者越來(lái)越依賴(lài)NVMe SSD存儲(chǔ)來(lái)提供服務(wù)器租用和服務(wù)器托管解決方案。本文將指導(dǎo)您了解為游戲數(shù)據(jù)庫(kù)選擇高性能NVMe SSD存儲(chǔ)
    的頭像 發(fā)表于 09-30 16:03 ?1077次閱讀

    RT-Thread Studio v2.2.9打開(kāi)時(shí)無(wú)法選擇工作空間怎么解決?

    重新打開(kāi),依舊進(jìn)入了軟件安裝目錄下的工作空間。 我在網(wǎng)絡(luò)上尋求這個(gè)問(wèn)題的解決辦法,但是與當(dāng)前版本的可配置選項(xiàng)完全不致,如果致則配置不生效,如修改文件內(nèi)容的配置項(xiàng)。 需求總結(jié) 需要能夠
    發(fā)表于 09-29 07:46

    知乎開(kāi)源“智能預(yù)渲染框架” 幾行代碼實(shí)現(xiàn)鴻蒙應(yīng)用頁(yè)面“開(kāi)

    ,交互延遲等核心痛點(diǎn),通過(guò)智能預(yù)測(cè)用戶(hù)瀏覽目標(biāo)進(jìn)行提前渲染,只需幾行代碼即可顯著提升復(fù)雜頁(yè)面的加載性能,實(shí)現(xiàn)“頁(yè)面開(kāi)”的高效體驗(yàn),為鴻蒙開(kāi)發(fā)者帶來(lái)開(kāi)發(fā)效率和用戶(hù)體驗(yàn)的雙重飛躍。 隨著鴻蒙生態(tài)快速發(fā)展,應(yīng)用開(kāi)發(fā)者難免會(huì)遇到
    的頭像 發(fā)表于 08-29 14:32 ?629次閱讀
    知乎開(kāi)源“智能預(yù)渲染框架” 幾行代碼實(shí)現(xiàn)鴻蒙應(yīng)用頁(yè)面“<b class='flag-5'>秒</b><b class='flag-5'>開(kāi)</b>”

    數(shù)據(jù)庫(kù)性能優(yōu)化指南

    作為名在大廠(chǎng)摸爬滾打多年的運(yùn)維老兵,我見(jiàn)過(guò)太多因?yàn)?b class='flag-5'>數(shù)據(jù)庫(kù)性能問(wèn)題導(dǎo)致的生產(chǎn)事故。今天分享套完整的數(shù)據(jù)庫(kù)優(yōu)化方法論,從SQL層面到硬件配置
    的頭像 發(fā)表于 08-18 11:21 ?749次閱讀

    GB10超級(jí)芯片開(kāi)賣(mài)!正式殺入AI PC

    GPU 和Grace CPU 組成,并配備了128GB LPDDR5X 內(nèi)存和1TB/4TB NVMe SSD,能夠運(yùn)行超過(guò)2,000億個(gè)參數(shù)的大型語(yǔ)言模型。 ? GB10 Grac
    的頭像 發(fā)表于 07-09 01:21 ?4098次閱讀

    快手上線(xiàn)鴻蒙應(yīng)用高性能解決方案:數(shù)據(jù)反序列化性能提升90%

    了其數(shù)據(jù)反序列化性能,在典型場(chǎng)景下能夠降低約90%的數(shù)據(jù)轉(zhuǎn)換耗時(shí),為鴻蒙應(yīng)用帶來(lái)了更流暢的用戶(hù)體驗(yàn)和更敏捷的交互響應(yīng)。 在鴻蒙應(yīng)用開(kāi)發(fā)過(guò)程中,“class-transformer”三方
    發(fā)表于 05-15 10:01

    搭載天璣9400+旗艦AI芯片的真我GT7性能超能

    ? ? ? 游戲神機(jī)真我GT7 登場(chǎng): 真我 GT7?搭載天璣 9400+ 旗艦芯, 性能超能 適配多款主流游戲的原生 144 幀模式,游戲超能 100W 光速
    的頭像 發(fā)表于 05-12 18:28 ?1478次閱讀

    移動(dòng)工作站是什么?為什么工程師說(shuō)它能省40%成本?

    你見(jiàn)過(guò)在沙漠里處理100GB地形數(shù)據(jù)的工程師嗎?或者在飛機(jī)上實(shí)時(shí)渲染4K視頻的設(shè)計(jì)師?普通筆記本遇到這些場(chǎng)景,要么卡成“磚頭”,要么扛不住沙塵、高溫直接“罷工”。而移動(dòng)工作站,就像給專(zhuān)業(yè)人士配了個(gè)“超能
    的頭像 發(fā)表于 04-07 15:11 ?2707次閱讀
    移動(dòng)工作站是什么?為什么工程師說(shuō)它能省40%成本?