91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數(shù)據(jù)湖是什么,它的快速搭建方法介紹

獨愛72H ? 來源:ITPUB ? 作者:ITPUB ? 2020-04-03 20:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(文章來源:ITPUB)

數(shù)據(jù)湖概念最早是在2011年提出,到現(xiàn)在也就9年左右的時間,算是一個較新的概念。雖然各方理解上有些差異,也存在一些爭議,但概念不重要,關鍵是否能真正幫助企業(yè)解決在業(yè)務快速發(fā)展過程中不斷遭遇的新問題。對于希望從數(shù)據(jù)資產(chǎn)中獲取更多經(jīng)濟價值的企業(yè)而言,數(shù)據(jù)湖可能是一個可行的選擇。但對不少國內企業(yè)來說,數(shù)據(jù)湖顯然還是一個未知的領域。

數(shù)據(jù)顯示,全球數(shù)據(jù)湖市場在2019年的規(guī)模為37.4億美元,預計到2025年將達到176億美元,預計2020 - 2025年期間的復合年增長率為29.9%。在國外,尤其是北美,數(shù)據(jù)湖應用已經(jīng)比較成熟,但在國內,還屬于初期階段。因此,第一次搭建數(shù)據(jù)湖,從哪里開始?如何成功搭建數(shù)據(jù)湖?對一些企業(yè)而言可能很難獲知,無論從時間還是投入上來說,試錯的成本都很高,那么,企業(yè)應該怎么做才能最大程度的降低風險并確保獲得回報?而這將是本文要探討的。

什么是數(shù)據(jù)湖,簡單的說,數(shù)據(jù)湖更像是數(shù)據(jù)倉庫的進化,比傳統(tǒng)數(shù)據(jù)倉庫涉及面更廣。但這并不是說數(shù)據(jù)湖能直接代替數(shù)據(jù)倉庫,兩者可以互補,大量案例顯示,數(shù)據(jù)倉庫作為數(shù)據(jù)湖的一類“數(shù)據(jù)應用”存在,協(xié)同工作。

眾所周知,傳統(tǒng)數(shù)據(jù)倉庫都是由數(shù)據(jù)庫發(fā)展而來,因此,無論是傳統(tǒng)的還是新型數(shù)據(jù)倉庫(分布式、云原生數(shù)倉),主要應用于結構化數(shù)據(jù)。而數(shù)據(jù)湖是多結構數(shù)據(jù)的存儲庫,無論是結構化、非結構化或半結構化數(shù)據(jù),都能以其原始格式存儲,不需要進行初始轉換過程,因此,更加靈活,并且存儲與計算是分離的,數(shù)據(jù)存儲在便宜的對象存儲中,如Hadoop或Amazon S3,能更好的優(yōu)化成本,而各種工具和服務(如Apache Presto、Elasticsearch和Amazon Athena)可以用來查詢這些數(shù)據(jù)。

數(shù)據(jù)湖的產(chǎn)生,源于大數(shù)據(jù)時代企業(yè)面臨的一系列挑戰(zhàn),例如:數(shù)據(jù)孤島,分析各種數(shù)據(jù)集的難度,數(shù)據(jù)管理,數(shù)據(jù)安全等。而云計算、人工智能則是推動數(shù)據(jù)湖發(fā)展的重要因素,云計算提供了快速查詢、海量存儲的能力,而機器學習需要原始數(shù)據(jù)做分析,而用到的數(shù)據(jù),也不止于結構化數(shù)據(jù),用戶的評論、圖像這些非結構化數(shù)據(jù),也都可以應用到機器學習中。目前,數(shù)據(jù)湖最為人所知的應用,當屬亞馬遜Galaxy(內部代號),如今已經(jīng)成為了亞馬遜核心競爭力之一。

Galaxy數(shù)據(jù)湖建于2019年,構建的原因是亞馬遜運營團隊需要做大量的數(shù)據(jù)分析,但基于傳統(tǒng)的數(shù)據(jù)倉庫無法滿足擴展的需要,并且維護的復雜度和成本都很高?;谧陨韽姶蟮募夹g能力,亞馬遜Galaxy實施了基于Amazon S3的數(shù)據(jù)湖方案,使用Amazon Redshift,Redshift Spectrum,和Amazon EMR運行分析的操作。下圖展示了Galaxy使用的一些AWS服務:Galaxy的部署,讓數(shù)據(jù)存儲量從50PB提升至100PB,在減少成本的同時加快了從數(shù)據(jù)中挖掘有用信息的速度。

數(shù)據(jù)湖是什么,它的快速搭建方法介紹

目前,每天在Galaxy上執(zhí)行的分析任務高達60萬個,涉及各個方面,如為用戶推薦、運營信息、庫存信息、購買信息、物價信息等。再來看一個國內的應用,出海電商新秀Club Factory。Club Factory 是2016年由嘉云數(shù)據(jù)在杭州成立, 定位于創(chuàng)新型出口電商、輕自營跨境電商平臺?;蛟S國內很多人都沒聽說過這家公司,但這家公司很厲害,手握的全球用戶已經(jīng)超過1億,其APP在超過10個國家APP購物榜單排名前5,14個國家排名前10。

在數(shù)據(jù)湖的構建上,Club Factory采用了基于AWS數(shù)據(jù)湖的解決方案,通過使用數(shù)據(jù)湖來實現(xiàn)基于用戶在平臺上的所有行為做實時自動推薦,BI報表(內部運營、分析),供應鏈管理創(chuàng)新。據(jù)公開資料顯示,其數(shù)據(jù)湖平臺日均處理15億條行為數(shù)據(jù)分析,支撐80多位數(shù)據(jù)工程師的分析和算法需求,支撐180個活躍的數(shù)據(jù)分析調度任務,每日同步4000多個業(yè)務數(shù)據(jù)到數(shù)據(jù)倉庫,支撐的數(shù)據(jù)總量達到約600TB。

如何快速搭建數(shù)據(jù)湖?搭建數(shù)據(jù)湖無非2種選擇,一種是基于開源解決方案,一種是基于商業(yè)解決方案。開源解決方案的優(yōu)勢是沒有授權成本,但有個前提,即你所在的企業(yè)得有一個能夠駕馭開源技術的團隊,有能力自己解決問題。因為,開源解決方案通常都比較零散,不成系統(tǒng)。對于初次搭建數(shù)據(jù)湖的企業(yè)而言,復雜性很高,成功搭建難度大?;谏虡I(yè)的解決方案則相反,對于較小或剛開始使用數(shù)據(jù)湖的公司來說,基于公有云的數(shù)據(jù)湖解決方案實現(xiàn)數(shù)據(jù)湖的快速構建是可行的選擇。

不僅搭建和管理維護的復雜性降低,并且成本可監(jiān)控。其次,基于云的數(shù)據(jù)湖解決方案技術成熟度更高。能得到更為成熟的技術環(huán)境支持,包括工具的多樣性。最后,可擴展性和安全也是重要原因之一。目前,數(shù)據(jù)湖已經(jīng)在公有云上得到了完美的實現(xiàn)和應用,例如:可以基于Amazon S3、AWS Glue等多個基本云服務快速構建出一套數(shù)據(jù)湖服務 。近期,AWS宣布,AWS Glue、Amazon Athena在由西云數(shù)據(jù)運營的AWS中國(寧夏)區(qū)域正式上線。

AWS Glue是一種全托管的數(shù)據(jù)提取、轉換和加載 (ETL) 服務及元數(shù)據(jù)目錄。它的價值在于,能讓準備數(shù)據(jù)更容易加載數(shù)據(jù)到數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖,用于數(shù)據(jù)分析。Amazon Athena則是一種交互式查詢服務,使用標準的SQL,可以直接對Amazon S3上的數(shù)據(jù)做交互查詢。而這兩種服務都是無服務器服務,意味著不需要管理基礎設施,只需要為運行的查詢付費。

官方已經(jīng)給出了如何使用 AWS Glue 和 Amazon S3 構建數(shù)據(jù)湖基礎和如何使用Amazon Athena 分析數(shù)據(jù)的具體教程,本文就不再贅述。當然,如果你覺得這種方式還有些復雜,那么接下來的一項服務,可以重點關注。去年,AWS發(fā)布了一項名為AWS Lake Formation的新服務,進一步降低了數(shù)據(jù)湖搭建的門檻,該服務簡化了數(shù)據(jù)湖的創(chuàng)建過程,并在幾天(而不是幾個月)內構建一個安全的數(shù)據(jù)湖。

不過,該服務目前還未在中國正式推出。當然,你也可以視自身情況自行選擇其他供應商,本文推薦基于AWS數(shù)據(jù)湖解決方案來實現(xiàn)快速搭建數(shù)據(jù)湖,是因為,到目前為止,AWS數(shù)據(jù)湖/數(shù)據(jù)分析解決方案是最完整,提供服務最豐富的,也是成功案例最多的。
(責任編輯:fqj)

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7335

    瀏覽量

    94777
  • 云計算
    +關注

    關注

    39

    文章

    8021

    瀏覽量

    144417
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    利用PEBB電力電子積木快速搭建SST固態(tài)變壓器的工程指南

    ,采用 PEBB(電力電子積木,Power Electronic Building Block) 的理念來快速搭建 SST(固態(tài)變壓器,Solid State Transformer) ,是一條極其專業(yè)且高可行性的工程落地路徑。
    的頭像 發(fā)表于 02-24 16:24 ?549次閱讀
    利用PEBB電力電子積木<b class='flag-5'>快速</b><b class='flag-5'>搭建</b>SST固態(tài)變壓器的工程指南

    生態(tài)水量動態(tài)監(jiān)測與管理系統(tǒng)

    生態(tài)水量是維持水生態(tài)系統(tǒng)健康的關鍵要素,關系到生物多樣性、水質凈化與景觀維護。傳統(tǒng)河湖水量管理多依賴人工觀測與經(jīng)驗調度,難以實現(xiàn)動態(tài)精準調控,容易造成生態(tài)用水不足或浪費。同時,在進行數(shù)據(jù)匯總
    的頭像 發(fā)表于 02-05 13:36 ?129次閱讀
    河<b class='flag-5'>湖</b>生態(tài)水量動態(tài)監(jiān)測與管理系統(tǒng)

    兩個MCU之間快速傳輸數(shù)據(jù)方法

    ,但目前容量最大的也只128位,因為是“先進先出”結構,所以不管傳遞數(shù)據(jù)多少,接收方必須移完整個寄存器,靈活性差而且大容量的移位寄存器也是少見難買的。一種被稱為“鐵電存儲器”芯片的出現(xiàn),給我們帶來了解決方法。
    發(fā)表于 01-19 07:07

    RK3588采集Cameralink圖像快速搭建系統(tǒng)辦法

    : CL-U3,便攜式應用。 瑞芯微的RK3588開發(fā)板很多,種類各式各樣。如何快速搭建一套自己的基于RK3588的嵌入式Cameralink圖像采集處理方案呢。下面推薦一下。 快速原型機的
    發(fā)表于 12-19 10:07

    射頻線纜快速性能判斷實用指南

    本文介紹射頻線纜快速測試方法,涵蓋外觀檢查、直流參數(shù)測試及絕緣測試,幫助現(xiàn)場快速判斷性能是否達標
    的頭像 發(fā)表于 12-13 11:52 ?1047次閱讀

    【瑞薩RA6E2地奇星開發(fā)板試用】介紹、環(huán)境搭建、工程測試

    電平循環(huán)交替反轉。 保存文件,構建工程,使用 J-Link 調試和上傳固件。 效果 板載 LED 閃爍 動態(tài)演示見底部視頻。 總結 本文介紹了 RA6E2 地奇星開發(fā)板的基本信息,包括產(chǎn)品特點、參數(shù)資源、開發(fā)環(huán)境搭建以及工程測試等,為相關產(chǎn)品的開發(fā)設計和
    發(fā)表于 12-07 15:27

    GPIOB模擬spi的方法及l(fā)cd屏幕的接入

    越高,數(shù)據(jù)傳輸速率越快。由于spi接口較為簡單,同時《RISC-V架構與嵌入式開發(fā)快速入門》書中也詳細介紹過,在此原理部分介紹從略。 二、spi接口及l(fā)cd主要代碼實現(xiàn) lcd所需
    發(fā)表于 10-30 07:59

    部署Denodo與數(shù)據(jù)倉架構聯(lián)用,用戶可獲得345%投資回報率(ROI),實現(xiàn)3–4倍數(shù)據(jù)洞察提速

    AI Hackathon 2025,助力企業(yè)通過可信數(shù)據(jù)和先進 AI 技術加速創(chuàng)新。此次新聞稿覆蓋兩大重點:數(shù)據(jù)倉價值釋放的最新研究,以及全球開發(fā)者參與的 AI 創(chuàng)新賽事。 研究發(fā)現(xiàn):邏輯
    的頭像 發(fā)表于 10-23 17:27 ?681次閱讀

    【匠芯創(chuàng)D133CBS KunLun Pi開發(fā)板試用體驗】介紹、環(huán)境搭建

    【匠芯創(chuàng)D133CBS KunLun Pi開發(fā)板試用體驗】介紹、環(huán)境搭建、工程測試 本文介紹了匠芯創(chuàng) D133CBS KunLun Pi 開發(fā)板的相關信息,包括開發(fā)板和主控參數(shù)特點、系統(tǒng)框圖、資源
    發(fā)表于 09-17 10:35

    水利水文監(jiān)測與河長制管理平臺解決方案

    一、方案背景 在水生態(tài)環(huán)境保護與水資源可持續(xù)管理的宏觀框架下,河長制作為一項重要的制度創(chuàng)新,對于促進河健康、維護生態(tài)平衡、推動經(jīng)濟社會高質量發(fā)展具有不可替代的作用。 然而,傳統(tǒng)河管理模式依賴
    的頭像 發(fā)表于 08-25 14:27 ?699次閱讀
    水利水文監(jiān)測與河<b class='flag-5'>湖</b>長制管理平臺解決方案

    生態(tài)流量監(jiān)測平臺解決方案?

    依賴人工測流、定點觀測,存在數(shù)據(jù)采集頻次低、覆蓋范圍有限、生態(tài)流量達標評估滯后等問題,不僅難以實時掌握河生態(tài)基流變化,還可能因相關措施不及時而導致河道斷流、水質惡化、生物多樣性減少等生態(tài)問題,制約流域生態(tài)
    的頭像 發(fā)表于 08-22 17:08 ?623次閱讀
    河<b class='flag-5'>湖</b>生態(tài)流量監(jiān)測平臺解決方案?

    微軟推出全新Microsoft Sentinel數(shù)據(jù)國際版

    近期,MicrosoftSentinel數(shù)據(jù)(國際版)正式開放公開預覽,重塑安全運營架構。通過統(tǒng)一所有安全數(shù)據(jù),以遠低于傳統(tǒng)方案的成本,解決了海量
    的頭像 發(fā)表于 08-04 15:36 ?984次閱讀

    搭建算力中心,從了解的GPU 特性開始

    ABSTRACT摘要本文介紹如何搭建算力,并介紹A100、H100、H200和B200這些GPU的特性。JAEALOT2025年4月23日隨著人工智能、大數(shù)據(jù)和高性能計算(HPC)的
    的頭像 發(fā)表于 04-24 11:08 ?3373次閱讀
    <b class='flag-5'>搭建</b>算力中心,從了解的GPU 特性開始

    瑞薩RA8 MCU開發(fā)教程:基于e2 studio在RA8上跑RTOS實現(xiàn)的方法

    今天教大家快速搭建FreeRTOS工程的方法?,F(xiàn)在, 軟件工具越來越“ 先進 ” 了,我們 搭建工程 只需要動動鼠標就能 搭建一個完整的工程
    的頭像 發(fā)表于 04-02 18:16 ?2297次閱讀
    瑞薩RA8 MCU開發(fā)教程:基于e2 studio在RA8上跑RTOS實現(xiàn)的<b class='flag-5'>方法</b>

    基于激光誘導擊穿光譜的銅物料快速檢測方法

    現(xiàn)場冶金物料均采用送樣定點檢測的方法,檢測數(shù)據(jù)時效性差、成本高。采用激光誘導擊穿光譜(LIBS)技術對冰銅、尾料和銅精礦中關鍵元素的成分進行快速檢測。激光誘導擊穿光譜技術對銅物料成分的快速
    的頭像 發(fā)表于 04-01 17:57 ?966次閱讀
    基于激光誘導擊穿光譜的銅物料<b class='flag-5'>快速</b>檢測<b class='flag-5'>方法</b>