91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)應(yīng)用的開發(fā)流程

RG15206629988 ? 來源:行業(yè)學(xué)習(xí)與研究 ? 2023-02-22 16:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大數(shù)據(jù)常見處理流程包括:原始數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)存儲、統(tǒng)計(jì)分析、存儲至數(shù)據(jù)倉庫、數(shù)據(jù)導(dǎo)出、導(dǎo)入數(shù)據(jù)庫、數(shù)據(jù)可視化。

49f2d180-b1d5-11ed-bfe3-dac502259ad0.png

圖片來源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》

一、原始數(shù)據(jù)采集

原始數(shù)據(jù)采集的方式包括:爬蟲程序采集、應(yīng)用數(shù)據(jù)采集。

爬蟲程序采集可在互聯(lián)網(wǎng)中爬取需要的數(shù)據(jù)。

應(yīng)用數(shù)據(jù)采集是指通過集群或分布式部署方式,將應(yīng)用程序的日志文件存儲于多個(gè)服務(wù)器中,再將日志文件數(shù)據(jù)集中存儲。

二、數(shù)據(jù)清洗和數(shù)據(jù)存儲

因?yàn)椴杉臄?shù)據(jù)中包含不符合要求的數(shù)據(jù),如格式?jīng)_突的數(shù)據(jù)、漏項(xiàng)的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)等,所以需要數(shù)據(jù)清洗將不符合要求的數(shù)據(jù)去除。

數(shù)據(jù)清洗過程可以較簡單,也可以較復(fù)雜。可以通過向數(shù)據(jù)缺失位置添加某值的方式簡單完成數(shù)據(jù)清洗(含個(gè)人理解);也可以通過復(fù)雜的機(jī)器學(xué)習(xí)模型清洗數(shù)據(jù)。

數(shù)據(jù)清洗可借助ETL軟件(根據(jù)百度百科:ETL是數(shù)據(jù)倉庫技術(shù))。一般,數(shù)據(jù)被清洗后,數(shù)據(jù)量較大,無法存儲于計(jì)算機(jī)內(nèi)存中,因此,需將數(shù)據(jù)存儲于HDFS(數(shù)據(jù)存儲)中或其他大數(shù)據(jù)存儲方式中。

三、統(tǒng)計(jì)分析和數(shù)據(jù)倉庫

統(tǒng)計(jì)分析可通過選擇合適統(tǒng)計(jì)分析工具完成??墒褂肕apReduce技術(shù)實(shí)現(xiàn)并行統(tǒng)計(jì)分析,也可使用Hive數(shù)據(jù)倉庫(Hive數(shù)據(jù)倉庫具有數(shù)據(jù)整理、特殊查詢、分析存儲功能)、Python、R等進(jìn)行統(tǒng)計(jì)分析。

統(tǒng)計(jì)分析的難點(diǎn)不在于選擇統(tǒng)計(jì)分析工具,而在于需求和分析對象。個(gè)人理解:具體的需求和分析對象多樣導(dǎo)致統(tǒng)計(jì)分析不能簡單地以某一方式解決所有統(tǒng)計(jì)分析問題。

統(tǒng)計(jì)分析結(jié)束后,數(shù)據(jù)可被存儲于數(shù)據(jù)倉庫中,可使用Hive數(shù)據(jù)倉庫搭建所需的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的數(shù)據(jù)不能直接向用戶呈現(xiàn)。

四、數(shù)據(jù)導(dǎo)出和數(shù)據(jù)庫

因?yàn)閿?shù)據(jù)倉庫的數(shù)據(jù)不能直接向用戶呈現(xiàn),所以需要將數(shù)據(jù)從數(shù)據(jù)倉庫導(dǎo)出,并將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫中以實(shí)現(xiàn)數(shù)據(jù)可視化。數(shù)據(jù)導(dǎo)出可使用Sqoop(Sqoop可提供數(shù)據(jù)導(dǎo)入功能)。

數(shù)據(jù)庫一般為關(guān)系型數(shù)據(jù)庫。

五、數(shù)據(jù)可視化

數(shù)據(jù)可視化的目標(biāo)是使數(shù)據(jù)可被直觀展示,傳統(tǒng)圖形化展示方式種類較多(根據(jù)網(wǎng)絡(luò)資料理解:傳統(tǒng)圖形化展示方式包括條形圖、排列圖、餅圖、環(huán)形圖等)。大數(shù)據(jù)新型可視化方式包括:氣泡圖、數(shù)據(jù)畫像、地圖涂色等。

六、大數(shù)據(jù)應(yīng)用案例

下文介紹Hadoop自帶的MapReduce應(yīng)用案例WordCount,WordCount可統(tǒng)計(jì)文件的詞頻。

(1)啟動Hadoop系統(tǒng)服務(wù),需啟動HDFS與Yarn服務(wù)(根據(jù)百度百科:Yarn是新的Hadoop資源管理器,是通用資源管理系統(tǒng))。

4a33be2a-b1d5-11ed-bfe3-dac502259ad0.png

圖中紅框內(nèi)命令為HDFS啟動命令,綠框內(nèi)命令為Yarn服務(wù)啟動命令,圖片來源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作

(2)檢查Hadoop安全模式是否為“OFF”狀態(tài),如果Hadoop安全模式的狀態(tài)為“ON”,則只能讀取HDFS中的數(shù)據(jù),不能向HDFS中寫入數(shù)據(jù)。

(3)準(zhǔn)備需要處理的數(shù)據(jù),即查看文本文件中的內(nèi)容。

4a9bfe2c-b1d5-11ed-bfe3-dac502259ad0.png

圖中紅框內(nèi)命令為查看文件內(nèi)容命令,綠框內(nèi)為文件中的內(nèi)容,圖片來源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作

(4)執(zhí)行WordCount應(yīng)用程序。WordCount的具體命令是hadoopjar hadoopmapreduce-examples-2.9.2.jarwordcount 被統(tǒng)計(jì)文件的目錄名與文件名 統(tǒng)計(jì)結(jié)果輸出文件目錄名與文件名。

4ac8966c-b1d5-11ed-bfe3-dac502259ad0.png

圖中紅框內(nèi)為WordCount應(yīng)用程序統(tǒng)計(jì)結(jié)果輸出文件的內(nèi)容,圖片來源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)庫
    +關(guān)注

    關(guān)注

    7

    文章

    4019

    瀏覽量

    68339
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8553

    瀏覽量

    136935
  • python
    +關(guān)注

    關(guān)注

    57

    文章

    4876

    瀏覽量

    90025
  • HDFS
    +關(guān)注

    關(guān)注

    1

    文章

    32

    瀏覽量

    10115

原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(11)——大數(shù)據(jù)應(yīng)用的開發(fā)流程

文章出處:【微信號:行業(yè)學(xué)習(xí)與研究,微信公眾號:行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于Vitis Model Composer完成全流程AI Engine開發(fā)

    基于Vitis Model Composer進(jìn)行AI Engine(AIE)開發(fā),核心優(yōu)勢體現(xiàn)在AIE專屬優(yōu)化、開發(fā)流程簡化、靈活的適配性、高效驗(yàn)證及量產(chǎn)適配等方面。
    的頭像 發(fā)表于 12-31 11:20 ?6025次閱讀
    基于Vitis Model Composer完成全<b class='flag-5'>流程</b>AI Engine<b class='flag-5'>開發(fā)</b>

    大數(shù)據(jù)解決方案如何實(shí)施

    大數(shù)據(jù)解決方案實(shí)施的難點(diǎn)在于以下幾點(diǎn): ?1.很少有優(yōu)質(zhì)可用的數(shù)據(jù) ?在數(shù)聚股份看來,這幾年數(shù)據(jù)交易機(jī)構(gòu)如雨后春筍,“數(shù)據(jù)變現(xiàn)”成為很多擁有數(shù)據(jù)
    的頭像 發(fā)表于 12-25 18:22 ?1041次閱讀

    大數(shù)據(jù)平臺運(yùn)營的基礎(chǔ)是什么

    在數(shù)聚股份看來,越來越多的企業(yè)開始搭建自己的大數(shù)據(jù)平臺體系,并傾注大量資源用于平臺的迭代和運(yùn)營。那么大數(shù)據(jù)平臺作為越來越被關(guān)注的企業(yè)新興價(jià)值點(diǎn),它應(yīng)該以何種方式看待,并且以什么樣的方式去建設(shè)和運(yùn)營
    的頭像 發(fā)表于 12-23 16:07 ?228次閱讀

    明晚8點(diǎn)|睿擎文件系統(tǒng)實(shí)戰(zhàn):從開發(fā)到發(fā)布全流程解析

    從文件操作到鏡像發(fā)布,一次直播掌握完整開發(fā)流程!在嵌入式系統(tǒng)開發(fā)中,文件系統(tǒng)是數(shù)據(jù)存儲、配置管理和資源訪問的核心基礎(chǔ)。然而在實(shí)際開發(fā)中,文件
    的頭像 發(fā)表于 11-11 11:53 ?641次閱讀
    明晚8點(diǎn)|睿擎文件系統(tǒng)實(shí)戰(zhàn):從<b class='flag-5'>開發(fā)</b>到發(fā)布全<b class='flag-5'>流程</b>解析

    湖北大數(shù)據(jù)集團(tuán)到訪維智科技參觀交流

    近日,湖北大數(shù)據(jù)集團(tuán)有限公司黨委書記、董事長汪小波率隊(duì)到訪維智科技。雙方圍繞時(shí)空數(shù)據(jù)融合、公共數(shù)據(jù)授權(quán)運(yùn)營及行業(yè)應(yīng)用場景開發(fā)等議題展開深入探討。
    的頭像 發(fā)表于 11-03 10:02 ?629次閱讀

    組態(tài)大數(shù)據(jù)平臺是什么?有什么功能?

    組態(tài)大數(shù)據(jù)平臺是融合 組態(tài)技術(shù) 與 大數(shù)據(jù)處理能力 的綜合性平臺,通過圖形化、可配置的方式實(shí)現(xiàn)數(shù)據(jù)采集、存儲、分析、可視化及遠(yuǎn)程控制,適用于工業(yè)自動化、能源管理、樓宇監(jiān)控等領(lǐng)域。其核心價(jià)值在于降低
    的頭像 發(fā)表于 10-30 11:29 ?223次閱讀
    組態(tài)<b class='flag-5'>大數(shù)據(jù)</b>平臺是什么?有什么功能?

    電磁兼容與電磁干擾在電磁兼容性大數(shù)據(jù)分析中的智能管理系統(tǒng)

    數(shù)據(jù),結(jié)合大數(shù)據(jù)分析、流程自動化及云邊協(xié)同技術(shù),實(shí)現(xiàn)電磁環(huán)境全生命周期管理。以下從五大維度精簡解析: 應(yīng)用案例 北京華盛恒輝、北京五木恒潤研發(fā)的 EMC/EMI 智能管理系統(tǒng)已落地應(yīng)用,成效顯著,為系統(tǒng)推廣提供有力支撐。 一、
    的頭像 發(fā)表于 09-17 14:58 ?618次閱讀

    御控工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)解決方案:排水設(shè)備遠(yuǎn)程監(jiān)控與大數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)

    御控工業(yè)物聯(lián)網(wǎng)推出排水設(shè)備遠(yuǎn)程監(jiān)控與大數(shù)據(jù)統(tǒng)計(jì)系統(tǒng),通過物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等技術(shù)構(gòu)建“感知-傳輸-分析-決策”閉環(huán)管理體系,助力排水行業(yè)數(shù)字化轉(zhuǎn)型。
    的頭像 發(fā)表于 09-12 10:04 ?662次閱讀

    如何利用數(shù)據(jù)+AI重塑業(yè)務(wù)流程

    在瞬息萬變的商業(yè)世界里,企業(yè)一直在通過業(yè)務(wù)流程再造尋找提升競爭力的突破口。從ERP熱潮,到數(shù)字技術(shù)的全面開花,每一次技術(shù)浪潮都推動著企業(yè)優(yōu)化流程、提升效率。如今,站在AI和數(shù)據(jù)驅(qū)動的時(shí)代,企業(yè)應(yīng)該思考的不是AI能不能取代人,而是
    的頭像 發(fā)表于 09-04 14:37 ?941次閱讀

    單片機(jī)開發(fā)流程包括什么?

    單片機(jī)開發(fā)是一個(gè)系統(tǒng)性的工程,從需求明確到最終產(chǎn)品落地,需要經(jīng)歷多個(gè)相互關(guān)聯(lián)的流程環(huán)節(jié),每個(gè)環(huán)節(jié)都對最終產(chǎn)品的性能和質(zhì)量有著重要影響。 一、需求分析與文檔梳理 開發(fā)流程的第一步是需求分
    的頭像 發(fā)表于 07-22 11:21 ?1002次閱讀

    RK3568 EVB開發(fā)板 深度休眠與快速醒的工作流程

    RK3568 EVB開發(fā)板關(guān)于深度休眠和喚醒流程的分析
    的頭像 發(fā)表于 07-22 09:49 ?849次閱讀
    RK3568 EVB<b class='flag-5'>開發(fā)</b>板 深度休眠與快速醒的工作<b class='flag-5'>流程</b>

    技術(shù)分享 | 如何在2k0300(LoongArch架構(gòu))處理器上跑通qt開發(fā)流程

    技術(shù)分享 | 如何在2k0300開發(fā)板(LoongArch架構(gòu))處理器上跑通qt開發(fā)流程
    的頭像 發(fā)表于 05-20 11:05 ?894次閱讀
    技術(shù)分享 | 如何在2k0300(LoongArch架構(gòu))處理器上跑通qt<b class='flag-5'>開發(fā)</b><b class='flag-5'>流程</b>

    更改最大數(shù)據(jù)包大小時(shí)無法識別USB設(shè)備如何解決?

    將生產(chǎn)者 EP 端點(diǎn)描述符中的最大數(shù)據(jù)包大小從 1024 字節(jié)更改為 512 字節(jié)時(shí),無法識別 USB 設(shè)備。 請告知如何解決這個(gè)問題。
    發(fā)表于 05-20 08:13

    基于RV1126開發(fā)板的AI算法開發(fā)流程

    AI算法開發(fā)流程由需求分析到準(zhǔn)備數(shù)據(jù),然后到選取模型,訓(xùn)練模型,接著模型轉(zhuǎn)換后進(jìn)行模型部署
    的頭像 發(fā)表于 04-18 14:03 ?2357次閱讀
    基于RV1126<b class='flag-5'>開發(fā)</b>板的AI算法<b class='flag-5'>開發(fā)</b><b class='flag-5'>流程</b>

    基于RV1126開發(fā)板的AI算法開發(fā)流程

    AI算法開發(fā)流程由需求分析到準(zhǔn)備數(shù)據(jù),然后到選取模型,訓(xùn)練模型,接著模型轉(zhuǎn)換后進(jìn)行模型部署
    的頭像 發(fā)表于 04-18 10:47 ?1091次閱讀
    基于RV1126<b class='flag-5'>開發(fā)</b>板的AI算法<b class='flag-5'>開發(fā)</b><b class='flag-5'>流程</b>