91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對于大數(shù)據(jù)的處理,主要有幾個(gè)工具引擎

姚小熊27 ? 來源:今日頭條 ? 作者:今日頭條 ? 2020-11-05 10:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

提到大數(shù)據(jù),我們就離不開數(shù)據(jù)的收集整理,其中ETL是我們經(jīng)常使用的用于構(gòu)建數(shù)據(jù)倉庫, 構(gòu)建大數(shù)據(jù)的方法。

大數(shù)據(jù)處理階段

此階段的目標(biāo)是使用單個(gè)模式來清理,規(guī)范化,處理和保存數(shù)據(jù)。最終結(jié)果是具有定義良好的架構(gòu)的可信數(shù)據(jù)集。例如Spark之類的處理框架用于在機(jī)器集群中并行處理數(shù)據(jù)。在這里我們需要進(jìn)行數(shù)據(jù)的驗(yàn)證,隔離掉不合法的數(shù)據(jù),我們需要對不良數(shù)據(jù)進(jìn)行篩選過濾。對于不規(guī)范的數(shù)據(jù),我們需要有整理和清潔功能,我們要能夠?qū)⒁恍┑托У母袷饺雑son進(jìn)行轉(zhuǎn)換。同時(shí)我們可能還需要一些標(biāo)準(zhǔn)化的操作,比如對一些數(shù)值進(jìn)行小數(shù)點(diǎn)位的精度轉(zhuǎn)化。

大數(shù)據(jù)處理的最終目的就是創(chuàng)建一個(gè)可信數(shù)據(jù)集,然后下游系統(tǒng)可以依賴此數(shù)據(jù)源進(jìn)行業(yè)務(wù)分析和數(shù)據(jù)計(jì)算。

對于大數(shù)據(jù)的處理,主要有下面的幾個(gè)工具引擎。

Apache Hive

它是將SQL請求轉(zhuǎn)換為MapReduce任務(wù)鏈的引擎。它主要實(shí)現(xiàn)的功能是對傳入的SQL進(jìn)行排序然后優(yōu)化排序結(jié)果,最終得到高效率的請求結(jié)果。2018年它將MapReduce替換為Tez作為搜索引擎。它具有機(jī)器學(xué)習(xí)功能,并且在和其他流行的大數(shù)據(jù)框架進(jìn)行集成。

Apache Spark

這是最著名的批處理框架。它是Hadoop生態(tài)系統(tǒng)的一部分,是一個(gè)托管集群,可提供強(qiáng)大的并性,有著精準(zhǔn)的監(jiān)控和出色的UI。它還支持流處理(結(jié)構(gòu)化流)?;旧?,Spark在內(nèi)存中運(yùn)行MapReduce作業(yè),其性能是常規(guī)MapReduce性能的100倍。它與Hive集成以支持SQL,并可用于創(chuàng)建Hive表,視圖或查詢數(shù)據(jù)。它具有很多集成,支持多種格式,并且擁有龐大的社區(qū)。所有云提供商都支持它。它可以在YARN上運(yùn)行作為Hadoop集群的一部分,還可以在Kubernetes和其他平臺(tái)中使用。它具有許多的第三方庫可以使用。

Apache Flink

第一個(gè)統(tǒng)一批處理和流傳輸?shù)囊?,它可以用作像Kafka這樣的微服務(wù)的主干。它可以作為Hadoop集群的一部分在YARN上運(yùn)行,它還針對其他平臺(tái)(如Kubernetes或Mesos)進(jìn)行了優(yōu)化。它非???,并且提供實(shí)時(shí)流傳輸,使其成為針對低延遲流處理(尤其是有狀態(tài)流)的一個(gè)比Spark更好的選擇。它還具有用于SQL,機(jī)器學(xué)習(xí)等的庫。它比Spark更快,是數(shù)據(jù)流的更好選擇。

Apache Storm

是一個(gè)免費(fèi)和開源的分布式實(shí)時(shí)計(jì)算系統(tǒng),它專注于流傳輸,是Hadoop生態(tài)系統(tǒng)的托管解決方案部分。它具有可擴(kuò)展性,容錯(cuò)性,可確保您的數(shù)據(jù)將得到處理,并且易于設(shè)置和操作。

Apache Samza

一個(gè)出色的有狀態(tài)流處理引擎。Samza允許您構(gòu)建有狀態(tài)的應(yīng)用程序,它可以從多個(gè)來源實(shí)時(shí)處理數(shù)據(jù)。它不僅可以在YARN集群上運(yùn)行,也可以作為獨(dú)立庫單獨(dú)運(yùn)行。

Apache Beam

它本身不是引擎,而是將所有其他引擎結(jié)合在一起的統(tǒng)一編程模型的規(guī)范。它提供了可以與不同語言一起使用的編程模型,因此開發(fā)人員在處理大數(shù)據(jù)管道時(shí)不必學(xué)習(xí)新的語言。然后,它為可以在云或本地運(yùn)行的處理步驟插入了不同的后端。Beam支持前面提到的所有引擎,您可以在它們之間輕松切換并在任何平臺(tái)上運(yùn)行它們:云,YARN,Mesos,Kubernetes。如果您要開始一個(gè)新項(xiàng)目,那么建議您從Beam開始,因?yàn)锽eam是面向未來的。

Presto

Presto是一個(gè)開放源代碼的分布式SQL查詢引擎,適合于對各種大小,各種數(shù)據(jù)源進(jìn)行交互式分析查詢。

Presto是專為交互式分析而設(shè)計(jì)和編寫的,當(dāng)它的規(guī)模擴(kuò)展到一定的規(guī)模的時(shí)候,它也可以實(shí)現(xiàn)商業(yè)數(shù)據(jù)倉庫的處理速度。

Presto允許查詢數(shù)據(jù)存在多個(gè)地方,包括Hive,Cassandra,關(guān)系數(shù)據(jù)庫甚至專有數(shù)據(jù)存儲(chǔ)。一個(gè)Presto查詢可以合并來自多個(gè)來源的數(shù)據(jù),從而可以在整個(gè)組織中進(jìn)行分析。

Presto適用于期望響應(yīng)時(shí)間從亞秒到數(shù)分鐘不等的分析師。Presto打破了使用昂貴的商業(yè)解決方案進(jìn)行快速分析或使用需要大量硬件的慢速“免費(fèi)”解決方案之間的錯(cuò)誤選擇。

總結(jié)

處理引擎是當(dāng)前在大數(shù)據(jù)詞中使用的很著名的工具。作為大數(shù)據(jù)工程師,您將經(jīng)常使用這些引擎。了解這些引擎的分布式特性并知道如何優(yōu)化它們,保護(hù)它們并監(jiān)視它們至關(guān)重要。

請記住,還有一些OLAP引擎提供了一種查詢大量數(shù)據(jù)的單一解決方案,而無需編寫復(fù)雜的轉(zhuǎn)換,而是通過以一種特定的格式加載數(shù)據(jù)來提高查詢的性能。

對于一個(gè)新項(xiàng)目,建議您研究Apache Beam,因?yàn)樗谒衅渌娴幕A(chǔ)上提供了一個(gè)抽象,使您無需更改代碼即可更改處理引擎。

對于流處理,特別是有狀態(tài)流處理,請考慮Flink或Samza。對于批處理,請使用Spark。
責(zé)任編輯:YYX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    9063

    瀏覽量

    143743
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    請問單片機(jī)開發(fā)的程序設(shè)計(jì)語言主要有哪幾種?

    單片機(jī)開發(fā)的程序設(shè)計(jì)語言主要有哪幾種?
    發(fā)表于 01-14 08:29

    嵌入式系統(tǒng)應(yīng)用熱門的原因主要有幾個(gè)方面

    RTOS(Real-time Operating System)開發(fā)平臺(tái),這樣才能保證程序執(zhí)行的實(shí)時(shí)性、可靠性,并減少開發(fā)時(shí)間,保障軟件質(zhì)量。6. 嵌入式系統(tǒng)開發(fā)需要開發(fā)工具和環(huán)境。由于其本身不具備
    發(fā)表于 01-08 06:37

    海光3350便攜機(jī)主板:大數(shù)據(jù)處理利器

    隨著企業(yè)數(shù)字化轉(zhuǎn)型加速,大數(shù)據(jù)處理需求從固定機(jī)房向移動(dòng)場景延伸。無論是金融機(jī)構(gòu)外出調(diào)研、科研團(tuán)隊(duì)野外數(shù)據(jù)采集,還是個(gè)人創(chuàng)作者處理海量素材,便攜設(shè)備的性能成為關(guān)鍵。海光便攜機(jī)主板憑借獨(dú)特的技術(shù)優(yōu)勢,正成為
    的頭像 發(fā)表于 12-26 11:15 ?485次閱讀

    最受歡迎的大數(shù)據(jù)可視化工具

    ?在數(shù)聚股份看來,大數(shù)據(jù)可視化是進(jìn)行各種大數(shù)據(jù)分析的最重要組成部分之一。 一旦原始數(shù)據(jù)流被以圖像形式表示時(shí),以此做決策就變得容易多了。 為了滿足并超越客戶的期望,大數(shù)據(jù)可視化
    的頭像 發(fā)表于 12-24 17:05 ?254次閱讀
    最受歡迎的<b class='flag-5'>大數(shù)據(jù)</b>可視化<b class='flag-5'>工具</b>

    大數(shù)據(jù)平臺(tái)運(yùn)營的基礎(chǔ)是什么

    在數(shù)聚股份看來,越來越多的企業(yè)開始搭建自己的大數(shù)據(jù)平臺(tái)體系,并傾注大量資源用于平臺(tái)的迭代和運(yùn)營。那么大數(shù)據(jù)平臺(tái)作為越來越被關(guān)注的企業(yè)新興價(jià)值點(diǎn),它應(yīng)該以何種方式看待,并且以什么樣的方式去建設(shè)和運(yùn)營
    的頭像 發(fā)表于 12-23 16:07 ?228次閱讀

    硬件加密引擎在保障數(shù)據(jù)安全方面有哪些優(yōu)勢呢?

    硬件加密引擎作為芯源半導(dǎo)體安全芯片的核心組件,在保障數(shù)據(jù)安全方面憑借硬件級(jí)的設(shè)計(jì)與優(yōu)化,相比軟件加密方案具有多維度優(yōu)勢,具體如下: 1. 加密運(yùn)算效率更高,實(shí)時(shí)性更強(qiáng) 硬件級(jí)并行處理:硬件加密
    發(fā)表于 11-17 06:47

    提高RISC-V在Drystone測試中得分的方法

    Drystone 是一種常用的計(jì)算機(jī)性能基準(zhǔn)測試,主要用來測量整數(shù)(非浮點(diǎn))計(jì)算性能。 影響 RISC-V 在 Drystone 測試中得分的因素主要有以下幾個(gè)處理器核心設(shè)計(jì):
    發(fā)表于 10-21 13:58

    水晶頭主要有哪幾種型號(hào)

    水晶頭主要有RJ-45、RJ-11和RJ-12三種型號(hào),具體說明如下: RJ-45水晶頭: 結(jié)構(gòu):有8個(gè)凹槽和8個(gè)觸點(diǎn)(8p8c),體積相對較大。 應(yīng)用:廣泛用于以太網(wǎng)、快速以太網(wǎng)、千兆以太網(wǎng)等網(wǎng)絡(luò)
    的頭像 發(fā)表于 08-05 09:41 ?4481次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    診斷方案,為網(wǎng)絡(luò)運(yùn)維帶來顯著的實(shí)用價(jià)值:1.快速提升故障處理效率l 實(shí)時(shí)監(jiān)控與智能預(yù)警: AI引擎持續(xù)分析海量流量、設(shè)備狀態(tài)及日志數(shù)據(jù),實(shí)時(shí)識(shí)別異常模式(如流量突增、延遲抖動(dòng)、微小丟包),實(shí)現(xiàn)故障發(fā)生
    發(fā)表于 07-16 15:29

    測量相位差的方法主要有哪些?

    測量相位差可以用示波器測量,也可以把相位差轉(zhuǎn)換為時(shí)間間隔,先測量出時(shí)間間隔,再換算為相位差,可以把相位差轉(zhuǎn)換為電壓,先測量出電壓,再換算為相位差,還可以與標(biāo)準(zhǔn)移相器進(jìn)行比較的比較法(零示法)等方法。 一 怎么用示波器來測量相位差? 應(yīng)用示波器測量兩個(gè)同頻正弦電壓之間的相位差的方法很多,本節(jié)介紹具有實(shí)用意義的直接比較法。將u1、u2分別接到雙蹤示波器的Y1通道和Y2通道,適當(dāng)調(diào)節(jié)掃描旋鈕和Y增益旋鈕,使熒光屏顯示出如圖
    的頭像 發(fā)表于 06-18 09:03 ?2115次閱讀
    測量相位差的方法<b class='flag-5'>主要有</b>哪些?

    RISC-V向量處理器:現(xiàn)代計(jì)算的革命性引擎

    在數(shù)字化高速發(fā)展的當(dāng)下,人工智能、大數(shù)據(jù)處理、物聯(lián)網(wǎng)等前沿技術(shù)日新月異,現(xiàn)代計(jì)算需求面臨著嚴(yán)峻挑戰(zhàn)。海量數(shù)據(jù)的爆發(fā)式增長,讓傳統(tǒng)計(jì)算架構(gòu)在處理大規(guī)模數(shù)據(jù)時(shí)顯得力不從心,效率低下、能耗過
    的頭像 發(fā)表于 06-04 10:03 ?1715次閱讀
    RISC-V向量<b class='flag-5'>處理</b>器:現(xiàn)代計(jì)算的革命性<b class='flag-5'>引擎</b>

    運(yùn)算放大器的噪聲主要有哪些

    在低噪聲前置放大器的設(shè)計(jì)領(lǐng)域,精準(zhǔn)控制噪聲是保障信號(hào)質(zhì)量的核心任務(wù)。而運(yùn)算放大器作為前置放大器的關(guān)鍵組件,其產(chǎn)生的噪聲直接影響系統(tǒng)性能。運(yùn)算放大器的噪聲主要來源于熱噪聲、閃爍噪聲、射擊噪聲和爆玉米
    的頭像 發(fā)表于 05-05 10:11 ?1103次閱讀

    如何基于Kahn處理網(wǎng)絡(luò)定義AI引擎圖形編程模型

    本白皮書探討了如何基于 Kahn 處理網(wǎng)絡(luò)( KPN )定義 AI 引擎圖形編程模型。KPN 模型有助于實(shí)現(xiàn)數(shù)據(jù)流并行化,進(jìn)而提高系統(tǒng)的整體性能。
    的頭像 發(fā)表于 04-17 11:31 ?863次閱讀
    如何基于Kahn<b class='flag-5'>處理</b>網(wǎng)絡(luò)定義AI<b class='flag-5'>引擎</b>圖形編程模型

    配備3D圖形加速引擎的通用微處理器RZ/G2LC數(shù)據(jù)手冊

    RZ/G2LC 微處理器配備 Cortex?-A55 (1.2 GHz) CPU、16 位 DDR3L/DDR4 接口以及帶 Arm Mali-G31的 3D 圖形加速引擎。 此外,這款微處理器還
    的頭像 發(fā)表于 03-12 17:29 ?870次閱讀
    配備3D圖形加速<b class='flag-5'>引擎</b>的通用微<b class='flag-5'>處理</b>器RZ/G2LC<b class='flag-5'>數(shù)據(jù)</b>手冊

    RAM容量不足導(dǎo)致的數(shù)據(jù)溢出如何預(yù)防和處理?

    在 STM32F411 中,RAM 容量是有限的,特別是在進(jìn)行復(fù)雜的數(shù)據(jù)處理和存儲(chǔ)時(shí),可能會(huì)遇到數(shù)據(jù)溢出問題。數(shù)據(jù)溢出是指程序運(yùn)行時(shí),數(shù)據(jù)超出了 RAM 的分配區(qū)域,導(dǎo)致程序崩潰或
    發(fā)表于 03-07 16:09