91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

你見證過Hadoop十年從無到有,再到稱王嘛?

gckX_aicapital ? 來源:陳年麗 ? 2019-07-17 14:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

我們很榮幸能夠見證Hadoop十年從無到有,再到稱王。感動(dòng)于技術(shù)的日新月異時(shí),希望通過這篇內(nèi)容深入解讀Hadoop的昨天、今天和明天,憧憬下一個(gè)十年。

本文分為技術(shù)篇、產(chǎn)業(yè)篇、應(yīng)用篇、展望篇四部分

技術(shù)篇

2006年項(xiàng)目成立的一開始,“Hadoop”這個(gè)單詞只代表了兩個(gè)組件——HDFS和MapReduce。到現(xiàn)在的10個(gè)年頭,這個(gè)單詞代表的是“核心”(即Core Hadoop項(xiàng)目)以及與之相關(guān)的一個(gè)不斷成長的生態(tài)系統(tǒng)。這個(gè)和Linux非常類似,都是由一個(gè)核心和一個(gè)生態(tài)系統(tǒng)組成。

現(xiàn)在Hadoop在一月發(fā)布了2.7.2的穩(wěn)定版, 已經(jīng)從傳統(tǒng)的Hadoop三駕馬車HDFS,MapReduce和HBase社區(qū)發(fā)展為60多個(gè)相關(guān)組件組成的龐大生態(tài),其中包含在各大發(fā)行版中的組件就有25個(gè)以上,包括數(shù)據(jù)存儲(chǔ)、執(zhí)行引擎、編程和數(shù)據(jù)訪問框架等。

Hadoop在2.0將資源管理從MapReduce中獨(dú)立出來變成通用框架后,就從1.0的三層結(jié)構(gòu)演變?yōu)榱爽F(xiàn)在的四層架構(gòu):

底層——存儲(chǔ)層,文件系統(tǒng)HDFS

中間層——資源及數(shù)據(jù)管理層,YARN以及Sentry等

上層——MapReduce、Impala、Spark等計(jì)算引擎

頂層——基于MapReduce、Spark等計(jì)算引擎的高級(jí)封裝及工具,如Hive、Pig、Mahout等等

存儲(chǔ)層

HDFS已經(jīng)成為了大數(shù)據(jù)磁盤存儲(chǔ)的事實(shí)標(biāo)準(zhǔn),用于海量日志類大文件的在線存儲(chǔ)。經(jīng)過這些年的發(fā)展,HDFS的架構(gòu)和功能基本固化,像HA、異構(gòu)存儲(chǔ)、本地?cái)?shù)據(jù)短路訪問等重要特性已經(jīng)實(shí)現(xiàn),在路線圖中除了Erasure Code已經(jīng)沒什么讓人興奮的feature。

隨著HDFS越來越穩(wěn)定,社區(qū)的活躍度也越來越低,同時(shí)HDFS的使用場(chǎng)景也變得成熟和固定,而上層會(huì)有越來越多的文件格式封裝:列式存儲(chǔ)的文件格式,如Parquent,很好的解決了現(xiàn)有BI類數(shù)據(jù)分析場(chǎng)景;以后還會(huì)出現(xiàn)新的存儲(chǔ)格式來適應(yīng)更多的應(yīng)用場(chǎng)景,如數(shù)組存儲(chǔ)來服務(wù)機(jī)器學(xué)習(xí)類應(yīng)用等。未來HDFS會(huì)繼續(xù)擴(kuò)展對(duì)于新興存儲(chǔ)介質(zhì)和服務(wù)器架構(gòu)的支持。

2015年HBase 發(fā)布了1.0版本,這也代表著 HBase 走向了穩(wěn)定。最新HBase新增特性包括:更加清晰的接口定義,多Region 副本以支持高可用讀,F(xiàn)amily粒度的Flush以及RPC讀寫隊(duì)列分離等。未來HBase不會(huì)再添加大的新功能,而將會(huì)更多的在穩(wěn)定性和性能方面進(jìn)化,尤其是大內(nèi)存支持、內(nèi)存GC效率等。

Kudu是Cloudera在2015年10月才對(duì)外公布的新的分布式存儲(chǔ)架構(gòu),與HDFS完全獨(dú)立。其實(shí)現(xiàn)參考了2012年Google發(fā)表的Spanner論文。鑒于Spanner在Google 內(nèi)部的巨大成功,Kudu被譽(yù)為下一代分析平臺(tái)的重要組成,用于處理快速數(shù)據(jù)的查詢和分析,填補(bǔ)HDFS和HBase之間的空白。其出現(xiàn)將進(jìn)一步把Hadoop市場(chǎng)向傳統(tǒng)數(shù)據(jù)倉庫市場(chǎng)靠攏。

Apache Arrow項(xiàng)目為列式內(nèi)存存儲(chǔ)的處理和交互提供了規(guī)范。目前來自Apache Hadoop社區(qū)的開發(fā)者們致力于將它制定為大數(shù)據(jù)系統(tǒng)項(xiàng)目的事實(shí)性標(biāo)準(zhǔn)。

Arrow項(xiàng)目受到了Cloudera、Databricks等多個(gè)大數(shù)據(jù)巨頭公司支持,很多committer同時(shí)也是其他明星大數(shù)據(jù)項(xiàng)目(如HBase、Spark、Kudu等)的核心開發(fā)人員。再考慮到Tachyon等似乎還沒有找到太多實(shí)際接地氣的應(yīng)用場(chǎng)景,Arrow的高調(diào)出場(chǎng)可能會(huì)成為未來新的內(nèi)存分析文件接口標(biāo)準(zhǔn)。

管控層

管控又分為數(shù)據(jù)管控和資源管控。

隨著Hadoop集群規(guī)模的增大以及對(duì)外服務(wù)的擴(kuò)展,如何有效可靠的共享利用資源是管控層需要解決的問題。脫胎于MapReduce1.0的YARN成為了Hadoop 2.0通用資源管理平臺(tái)。由于占據(jù)了Hadoop的地利,業(yè)界對(duì)其在資源管理領(lǐng)域未來的前景非??春谩?/p>

傳統(tǒng)其他資源管理框架如Mesos,還有現(xiàn)在興起的Docker等都會(huì)對(duì)YARN未來的發(fā)展產(chǎn)生影響。如何提高YARN性能、如何與容器技術(shù)深度融合,如何更好的適應(yīng)短任務(wù)的調(diào)度,如何更完整的多租戶支持、如何細(xì)粒度的資源管控等都是企業(yè)實(shí)際生產(chǎn)中迫在眉睫的需求,需要YARN解決。要讓Hadoop走得更遠(yuǎn),未來YARN需要做的工作還很多。

另一方面大數(shù)據(jù)的安全和隱私越來越多的受到關(guān)注。Hadoop依靠且僅依靠Kerberos來實(shí)現(xiàn)安全機(jī)制,但每一個(gè)組件都將進(jìn)行自己的驗(yàn)證和授權(quán)策略。開源社區(qū)似乎從來不真正關(guān)心安全問題,如果不使用來自Hortonworks的Ranger或來自Cloudera 的Sentry這樣的組件,那么大數(shù)據(jù)平臺(tái)基本上談不上安全可靠。

Cloudera剛推出的RecordService組件使得Sentry在安全競(jìng)賽中拔得先機(jī)。RecordService不僅提供了跨所有組件一致的安全顆粒度,而且提供了基于Record的底層抽象(有點(diǎn)像Spring,代替了原來Kite SDK的作用),讓上層的應(yīng)用和下層存儲(chǔ)解耦合的同時(shí)、提供了跨組件的可復(fù)用數(shù)據(jù)模型。

計(jì)算引擎層

Hadoop生態(tài)和其他生態(tài)最大的不同之一就是“單一平臺(tái)多種應(yīng)用”的理念了。傳的數(shù)據(jù)庫底層只有一個(gè)引擎,只處理關(guān)系型應(yīng)用,所以是“單一平臺(tái)單一應(yīng)用”;而NoSQL市場(chǎng)有上百個(gè)NoSQL軟件,每一個(gè)都針對(duì)不同的應(yīng)用場(chǎng)景且完全獨(dú)立,因此是“多平臺(tái)多應(yīng)用”的模式。而Hadoop在底層共用一份HDFS存儲(chǔ),上層有很多個(gè)組件分別服務(wù)多種應(yīng)用場(chǎng)景,如:

確定性數(shù)據(jù)分析:主要是簡單的數(shù)據(jù)統(tǒng)計(jì)任務(wù),例如OLAP,關(guān)注快速響應(yīng),實(shí)現(xiàn)組件有Impala等;

探索性數(shù)據(jù)分析:主要是信息關(guān)聯(lián)性發(fā)現(xiàn)任務(wù),例如搜索,關(guān)注非結(jié)構(gòu)化全量信息收集,實(shí)現(xiàn)組件有Search等;

預(yù)測(cè)性數(shù)據(jù)分析:主要是機(jī)器學(xué)習(xí)類任務(wù),例如邏輯回歸等,關(guān)注計(jì)算模型的先進(jìn)性和計(jì)算能力,實(shí)現(xiàn)組件有Spark、MapReduce等;

數(shù)據(jù)處理及轉(zhuǎn)化:主要是ETL類任務(wù),例如數(shù)據(jù)管道等,關(guān)注IO吞吐率和可靠性,實(shí)現(xiàn)組件有MapReduce等

其中,最耀眼的就是Spark了。IBM宣布培養(yǎng)100萬名Spark開發(fā)人員,Cloudera在One Platform倡議中宣布支持Spark為Hadoop的缺省通用任務(wù)執(zhí)行引擎,加上Hortonworks全力支持Spark,我們相信Spark將會(huì)是未來大數(shù)據(jù)分析的核心。

雖然Spark很快,但現(xiàn)在在生產(chǎn)環(huán)境中仍然不盡人意,無論擴(kuò)展性、穩(wěn)定性、管理性等方面都需要進(jìn)一步增強(qiáng)。同時(shí),Spark在流處理領(lǐng)域能力有限,如果要實(shí)現(xiàn)亞秒級(jí)或大容量的數(shù)據(jù)獲取或處理需要其他流處理產(chǎn)品。Cloudera宣布旨在讓Spark流數(shù)據(jù)技術(shù)適用于80%的使用場(chǎng)合,就考慮到了這一缺陷。我們確實(shí)看到實(shí)時(shí)分析(而非簡單數(shù)據(jù)過濾或分發(fā))場(chǎng)景中,很多以前使用S4或Storm等流式處理引擎的實(shí)現(xiàn)已經(jīng)逐漸Kafka+Spark Streaming代替。

Spark的流行將逐漸讓MapReduce、Tez走進(jìn)博物館。

服務(wù)層

服務(wù)層是包裝底層引擎的編程API細(xì)節(jié),對(duì)業(yè)務(wù)人員提供更高抽象的訪問模型,如Pig、Hive等。

而其中最炙手可熱的就是OLAP的SQL市場(chǎng)了?,F(xiàn)在,Spark有70%的訪問量來自于SparkSQL!SQL on Hadoop到底哪家強(qiáng)?Hive、Facebook的Pheonix、Presto、SparkSQL、Cloudera推的Impala、MapR推的Drill、IBM的BigSQL、還是Pivital開源的HAWQ?

這也許是碎片化最嚴(yán)重的地方了,從技術(shù)上講幾乎每個(gè)組件都有特定的應(yīng)用場(chǎng)景,從生態(tài)上講各個(gè)廠家都有自己的寵愛,因此Hadoop上SQL引擎已經(jīng)不僅僅是技術(shù)上的博弈(也因此考慮到本篇中立性,此處不做評(píng)論)。可以遇見的是,未來所有的SQL工具都將被整合,有些產(chǎn)品已經(jīng)在競(jìng)爭鐘逐漸落伍,我們期待市場(chǎng)的選擇。

周邊的工具更是百花齊放,最重要的莫過于可視化、任務(wù)管理和數(shù)據(jù)管理了。

有很多開源工具都支持基于Hadoop 的查詢程序編寫以及即時(shí)的圖形化表示,如HUE、Zeppelin等。用戶可以編寫一些SQL或Spark代碼以及描述代碼的一些標(biāo)記,并指定可視化的模版,執(zhí)行后保存起來,就可供其他人復(fù)用,這鐘模式也被叫做“敏捷BI”。這個(gè)領(lǐng)域的商業(yè)產(chǎn)品更是競(jìng)爭激烈,如Tableau、Qlik等。

調(diào)度類工具的鼻祖Oozie能實(shí)現(xiàn)幾個(gè)MapReduce任務(wù)串連運(yùn)行的場(chǎng)景,后來的Nifi及Kettle等其他工具則提供了更加強(qiáng)大的調(diào)度實(shí)現(xiàn),值得一試。

毫無疑問,相對(duì)與傳統(tǒng)的數(shù)據(jù)庫生態(tài),Hadoop的數(shù)據(jù)治理相對(duì)簡單。Atlas是Hortonworks新的數(shù)據(jù)治理工具,雖然還談不上完全成熟,不過正取得進(jìn)展。Cloudera的Navigator是Cloudera商業(yè)版本的核心,匯聚了生命周期管理、數(shù)據(jù)溯源、安全、審計(jì)、SQL遷移工具等一系列功能。Cloudera收購Explain.io以后將其產(chǎn)品整合為Navigator Optimizator組件,能幫助用戶把傳統(tǒng)的SQL應(yīng)用遷移到Hadoop平臺(tái)并提供優(yōu)化建議,可以節(jié)省數(shù)人月的工作量。

算法及機(jī)器學(xué)習(xí)

實(shí)現(xiàn)基于機(jī)器學(xué)習(xí)的自動(dòng)的智能化數(shù)據(jù)價(jià)值挖掘是大數(shù)據(jù)和Hadoop最誘人的愿景了,也是很多企業(yè)對(duì)大數(shù)據(jù)平臺(tái)的最終期望。隨著可獲得的數(shù)據(jù)越來越多,未來大數(shù)據(jù)平臺(tái)的價(jià)值更多的取決于其計(jì)算人工智能的程度。

現(xiàn)在機(jī)器學(xué)習(xí)正慢慢跨出象牙塔,從一個(gè)少部分學(xué)術(shù)界人士研究的科技課題變成很多企業(yè)正在驗(yàn)證使用的數(shù)據(jù)分析工具,而且已經(jīng)越來越多的進(jìn)入我們的日常生活。

機(jī)器學(xué)習(xí)的開源項(xiàng)目除了之前的Mahout、MLlib、Oryx等,今年發(fā)生了很多令人矚目的大事,迎來了數(shù)個(gè)明星巨頭的重磅加入:

2015年1月,F(xiàn)acebook開源前沿深度學(xué)習(xí)工具“Torch”。

2015年4月,亞馬遜啟動(dòng)其機(jī)器學(xué)習(xí)平臺(tái)Amazon Machine Learning,這是一項(xiàng)全面的托管服務(wù),讓開發(fā)者能夠輕松使用歷史數(shù)據(jù)開發(fā)并部署預(yù)測(cè)模型。

2015年11月,谷歌開源其機(jī)器學(xué)習(xí)平臺(tái)TensorFlow。

同一月,IBM開源SystemML并成為Apache官方孵化項(xiàng)目。

同時(shí),微軟亞洲研究院將分布式機(jī)器學(xué)習(xí)工具DMTK通過Github開源。DMTK由一個(gè)服務(wù)于分布式機(jī)器學(xué)習(xí)的框架和一組分布式機(jī)器學(xué)習(xí)算法組成,可將機(jī)器學(xué)習(xí)算法應(yīng)用到大數(shù)據(jù)中。

2015年12月,F(xiàn)acebook開源針對(duì)神經(jīng)網(wǎng)絡(luò)研究的服務(wù)器“Big Sur”,配有高性能圖形處理單元(GPUs),轉(zhuǎn)為深度學(xué)習(xí)方向設(shè)計(jì)的芯片。

產(chǎn)業(yè)篇

現(xiàn)在使用Hadoop的企業(yè)以及靠Hadoop賺錢的企業(yè)已經(jīng)成千上萬。幾乎大的企業(yè)或多或少的已經(jīng)使用或者計(jì)劃嘗試使用Hadoop技術(shù)。就對(duì)Hadoop定位和使用不同,可以將Hadoop業(yè)界公司劃分為四類:

第一梯隊(duì):這類公司已經(jīng)將Hadoop當(dāng)作大數(shù)據(jù)戰(zhàn)略武器。

第二梯隊(duì):這類公司將Hadoop 產(chǎn)品化。

第三梯隊(duì):這類公司創(chuàng)造對(duì)Hadoop整體生態(tài)系統(tǒng)產(chǎn)生附加價(jià)值的產(chǎn)品。

第四梯隊(duì):這類公司消費(fèi)Hadoop,并給規(guī)模比第一類和第二類小的公司提供基于Hadoop的服務(wù)。

時(shí)至今日,Hadoop雖然在技術(shù)上已經(jīng)得到驗(yàn)證、認(rèn)可甚至已經(jīng)到了成熟期。其中最能代表Hadoop發(fā)展軌跡的莫過于商業(yè)公司推出的Hadoop發(fā)行版了。自從2008年Cloudera成為第一個(gè)Hadoop商業(yè)化公司,并在2009年推出第一個(gè)Hadoop發(fā)行版后,很多大公司也加入了做Hadoop產(chǎn)品化的行列。

“發(fā)行版”這個(gè)詞是開源文化特有的符號(hào),看起來任何一個(gè)公司只要將開源代碼打個(gè)包,再多多少少加個(gè)佐料就能有一個(gè)“發(fā)行版”,然而背后是對(duì)海量生態(tài)系統(tǒng)組件的價(jià)值篩選、兼容和集成保證以及支撐服務(wù)。

2012年以前的發(fā)行版基本為對(duì)Hadoop打補(bǔ)丁為主,出現(xiàn)了好幾個(gè)私有化Hadoop版本,所折射的是Hadoop產(chǎn)品在質(zhì)量上的缺陷。同期HDFS、HBase等社區(qū)的超高活躍度印證了這個(gè)事實(shí)。

而之后的公司更多是工具、集成、管理,所提供的不是“更好的Hadoop”而是如何更好的用好“現(xiàn)有”的Hadoop。

2014年以后,隨著Spark和其他OLAP產(chǎn)品的興起,折射出來是Hadoop善長的離線場(chǎng)景等已經(jīng)能夠很好的解決,希望通過擴(kuò)大生態(tài)來適應(yīng)新的硬件和拓展新的市場(chǎng)。

Cloudera提出了Hybrid Open Source的架構(gòu):核心組件名稱叫CDH(Cloudera's Distribution including Apache Hadoop),開源免費(fèi)并與Apache社區(qū)同步,用戶無限制使用,保證Hadoop基本功能持續(xù)可用,不會(huì)被廠家綁定;數(shù)據(jù)治理和系統(tǒng)管理組件閉源且需要商業(yè)許可,支持客戶可以更好更方便的使用Hadoop技術(shù),如部署安全策略等。Cloudera也在商業(yè)組件部分提供在企業(yè)生產(chǎn)環(huán)境中運(yùn)行Hadoop所必需的運(yùn)維功能,而這些功能并不被開源社區(qū)所覆蓋,如無宕機(jī)滾動(dòng)升級(jí)、異步災(zāi)備等。

Hortonworks采用了100%完全開源策略,產(chǎn)品名稱為HDP(Hortonworks Data Platform)。所有軟件產(chǎn)品開源,用戶免費(fèi)使用,Hortonworks提供商業(yè)的技術(shù)支持服務(wù)。與CDH相比,管理軟件使用開源Ambari,數(shù)據(jù)治理使用Atlas,安全組件使用Ranger而非Sentry,SQL繼續(xù)緊抱Hive大腿。

MapR采用了傳統(tǒng)軟件廠商的模式,使用私有化的實(shí)現(xiàn)。用戶購買軟件許可后才能使用。其OLAP產(chǎn)品主推Drill,又不排斥Impala。

現(xiàn)在主流的公有云如AWS、Azure等都已經(jīng)在原有提供虛擬機(jī)的IaaS服務(wù)之外,提供基于Hadoop的PaaS云計(jì)算服務(wù)。未來這塊市場(chǎng)的發(fā)展將超過私有Hadoop部署。

應(yīng)用篇

Hadoop平臺(tái)釋放了前所未有的計(jì)算能力,同時(shí)大大降低了計(jì)算成本。底層核心基礎(chǔ)架構(gòu)生產(chǎn)力的發(fā)展,必然帶來的是大數(shù)據(jù)應(yīng)用層的迅速建立。

對(duì)于Hadoop上的應(yīng)用大致可以分為這兩類:

IT優(yōu)化

將已經(jīng)實(shí)現(xiàn)的應(yīng)用和業(yè)務(wù)搬遷到Hadoop平臺(tái),以獲得更多的數(shù)據(jù)、更好的性能或更低的成本。通過提高產(chǎn)出比、降低生產(chǎn)和維護(hù)成本等方式為企業(yè)帶來好處。

這幾年Hadoop在數(shù)個(gè)此類應(yīng)用場(chǎng)景中已經(jīng)被證明是非常適合的解決方案,包括:

歷史日志數(shù)據(jù)在線查詢:傳統(tǒng)的解決方案將數(shù)據(jù)存放在昂貴的關(guān)系型數(shù)據(jù)庫中,不僅成本高、效率低,而且無法滿足在線服務(wù)時(shí)高并發(fā)的訪問量。以HBase為底層存儲(chǔ)和查詢引擎的架構(gòu)非常適合有固定場(chǎng)景(非ad hoc)的查詢需求,如航班查詢、個(gè)人交易記錄查詢等等。現(xiàn)在已經(jīng)成為在線查詢應(yīng)用的標(biāo)準(zhǔn)方案,中國移動(dòng)在企業(yè)技術(shù)指導(dǎo)意見中明確指明使用HBase技術(shù)來實(shí)現(xiàn)所有分公司的清賬單查詢業(yè)務(wù)。

ETL任務(wù):不少廠商已經(jīng)提供了非常優(yōu)秀的ETL產(chǎn)品和解決方案,并在市場(chǎng)中得到了廣泛的應(yīng)用。然而在大數(shù)據(jù)的場(chǎng)景中,傳統(tǒng)ETL遇到了性能和QoS保證上的嚴(yán)重挑戰(zhàn)。多數(shù)ETL任務(wù)是輕計(jì)算重IO類型的,而傳統(tǒng)的IT硬件方案,如承載數(shù)據(jù)庫的小型計(jì)算機(jī),都是為計(jì)算類任務(wù)設(shè)計(jì)的,即使使用了最新的網(wǎng)絡(luò)技術(shù),IO也頂多到達(dá)幾十GB。

采用分布式架構(gòu)的Hadoop提供了完美的解決方案,不僅使用share-nothing的scale-out架構(gòu)提供了能線性擴(kuò)展的無限IO,保證了ETL任務(wù)的效率,同時(shí)框架已經(jīng)提供負(fù)載均衡、自動(dòng)FailOver等特性保證了任務(wù)執(zhí)行的可靠性和可用性。

數(shù)據(jù)倉庫offload:傳統(tǒng)數(shù)據(jù)倉庫中有很多離線的批量數(shù)據(jù)處理業(yè)務(wù),如日?qǐng)?bào)表、月報(bào)表等,占用了大量的硬件資源。而這些任務(wù)通常又是Hadoop所善長的

經(jīng)常被問到的一個(gè)問題就是,Hadoop是否可以代替數(shù)據(jù)倉庫,或者說企業(yè)是否可以使用免費(fèi)的Hadoop來避免采購昂貴的數(shù)據(jù)倉庫產(chǎn)品。數(shù)據(jù)庫界的泰斗Mike Stonebroker在一次技術(shù)交流中說:數(shù)據(jù)倉庫和Hadoop所針對(duì)的場(chǎng)景重合型非常高,未來這兩個(gè)市場(chǎng)一定會(huì)合并。

我們相信在數(shù)據(jù)倉庫市場(chǎng)Hadoop會(huì)遲早替代到現(xiàn)在的產(chǎn)品,只不過,那時(shí)候的Hadoop已經(jīng)又不是現(xiàn)在的樣子了。就現(xiàn)在來講,Hadoop還只是數(shù)據(jù)倉庫產(chǎn)品的一個(gè)補(bǔ)充,和數(shù)據(jù)倉庫一起構(gòu)建混搭架構(gòu)為上層應(yīng)用聯(lián)合提供服務(wù)。

業(yè)務(wù)優(yōu)化

在Hadoop上實(shí)現(xiàn)原來尚未實(shí)現(xiàn)的算法、應(yīng)用,從原有的生產(chǎn)線中孵化出新的產(chǎn)品和業(yè)務(wù),創(chuàng)造新的價(jià)值。通過新業(yè)務(wù)為企業(yè)帶來新的市場(chǎng)和客戶,從而增加企業(yè)收入。

Hadoop提供了強(qiáng)大的計(jì)算能力,專業(yè)大數(shù)據(jù)應(yīng)用已經(jīng)在幾乎任何垂直領(lǐng)域都很出色,從銀行業(yè)(反欺詐、征信等)、醫(yī)療保健(特別是在基因組學(xué)和藥物研究),到零售業(yè)、服務(wù)業(yè)(個(gè)性化服務(wù)、智能服務(wù),如UBer的自動(dòng)派車功能等)。

在企業(yè)內(nèi)部,各種工具已經(jīng)出現(xiàn),以幫助企業(yè)用戶操作核心功能。例如,大數(shù)據(jù)通過大量的內(nèi)部和外部的數(shù)據(jù),實(shí)時(shí)更新數(shù)據(jù),可以幫助銷售和市場(chǎng)營銷弄清楚哪些客戶最有可能購買??蛻舴?wù)應(yīng)用可以幫助個(gè)性化服務(wù); HR應(yīng)用程序可幫助找出如何吸引和留住最優(yōu)秀的員工等。

為什么Hadoop如此成功?這個(gè)問題似乎是個(gè)馬后炮,但當(dāng)我們今天驚嘆于Hadoop在短短10年時(shí)間取得如此統(tǒng)治性地位的時(shí)候,確實(shí)會(huì)自然而然地思考為什么這一切會(huì)發(fā)生。基于與同期其他項(xiàng)目的比較,我們認(rèn)為有很多因素的綜合作用造就了這一奇跡:

技術(shù)架構(gòu):Hadoop推崇的本地化計(jì)算理念,其實(shí)現(xiàn)在可擴(kuò)展性、可靠性上的優(yōu)勢(shì),以及有彈性的多層級(jí)架構(gòu)等都是領(lǐng)先其他產(chǎn)品而獲得成功的內(nèi)在因素。沒有其他任何一個(gè)這樣復(fù)雜的系統(tǒng)能快速的滿足不斷變化的用戶需求。

硬件發(fā)展:摩爾定律為代表的scale up架構(gòu)遇到了技術(shù)瓶頸,不斷增加的計(jì)算需求迫使軟件技術(shù)不得不轉(zhuǎn)到分布式方向?qū)ふ医鉀Q方案。同時(shí),PC服務(wù)器技術(shù)的發(fā)展使得像Hadoop這樣使用廉價(jià)節(jié)點(diǎn)組群的技術(shù)變?yōu)榭尚?,同時(shí)還具有很誘人的性價(jià)比優(yōu)勢(shì)。

工程驗(yàn)證:Google發(fā)表GFS和MapReduce論文時(shí)已經(jīng)在內(nèi)部有了可觀的部署和實(shí)際的應(yīng)用,而Hadoop在推向業(yè)界之前已經(jīng)在Yahoo等互聯(lián)網(wǎng)公司驗(yàn)證了工程上的可靠性和可用性,極大的增加了業(yè)界信心,從而迅速被接納流行。而大量的部署實(shí)例又促進(jìn)了Hadoop的發(fā)展喝成熟。

社區(qū)推動(dòng):Hadoop生態(tài)一直堅(jiān)持開源開放,友好的Apache許可基本消除了廠商和用戶的進(jìn)入門檻,從而構(gòu)建了有史以來最大最多樣化最活躍的開發(fā)者社區(qū),持續(xù)地推動(dòng)著技術(shù)發(fā)展,讓Hadoop超越了很多以前和同期的項(xiàng)目。

關(guān)注底層:Hadoop 的根基是打造一個(gè)分布式計(jì)算框架,讓應(yīng)用程序開發(fā)人員更容易的工作。業(yè)界持續(xù)推動(dòng)的重點(diǎn)一直在不斷夯實(shí)底層,并在諸如資源管理和安全領(lǐng)域等領(lǐng)域不斷開花結(jié)果,為企業(yè)生產(chǎn)環(huán)境部署不斷掃清障礙。

下一代分析平臺(tái)

過去的十年中Apache Hadoop社區(qū)以瘋狂的速度發(fā)展,現(xiàn)在儼然已經(jīng)是事實(shí)上的大數(shù)據(jù)平臺(tái)標(biāo)準(zhǔn)。但仍有更多的工作要做!大數(shù)據(jù)應(yīng)用未來的價(jià)值在于預(yù)測(cè),而預(yù)測(cè)的核心是分析。下一代的分析平臺(tái)會(huì)是什么樣呢?它必定會(huì)面臨、同時(shí)也必須要解決以下的問題:

更多更快的數(shù)據(jù)。

更新的硬件特性及架構(gòu)。

更高級(jí)的分析。

更安全。

因此,未來的幾年,我們會(huì)繼續(xù)見證“后Hadoop時(shí)代”的下一代企業(yè)大數(shù)據(jù)平臺(tái):

內(nèi)存計(jì)算時(shí)代的來臨。隨著高級(jí)分析和實(shí)時(shí)應(yīng)用的增長,對(duì)處理能力提出了更高的要求,數(shù)據(jù)處理重點(diǎn)從IO重新回到CPU。以內(nèi)存計(jì)算為核心的Spark將代替以IO吞吐為核心的MapReduce成為分布式大數(shù)據(jù)處理的缺省通用引擎。做為既支持批處理有支持準(zhǔn)實(shí)時(shí)流處理的通用引擎,Spark將能滿足80%以上的應(yīng)用場(chǎng)景。

然而,Spark畢竟核心還是批處理,擅長迭代式的計(jì)算,但并不能滿足所有的應(yīng)用場(chǎng)景。其他為特殊應(yīng)用場(chǎng)景設(shè)計(jì)的工具會(huì)對(duì)其補(bǔ)充,包括:

a) OLAP。OLAP,尤其是聚合類的在線統(tǒng)計(jì)分析應(yīng)用,對(duì)于數(shù)據(jù)的存儲(chǔ)、組織和處理都和單純離線批處理應(yīng)用有很大不同。

b) 知識(shí)發(fā)現(xiàn)。與傳統(tǒng)應(yīng)用解決已知問題不同,大數(shù)據(jù)的價(jià)值在于發(fā)現(xiàn)并解決未知問題。因此,要最大限度地發(fā)揮分析人員的智能,將數(shù)據(jù)檢索變?yōu)閿?shù)據(jù)探索。

統(tǒng)一數(shù)據(jù)訪問管理?,F(xiàn)在的數(shù)據(jù)訪問由于數(shù)據(jù)存儲(chǔ)的格式不同、位置不同,用戶需要使用不同的接口、模型甚至語言。同時(shí),不同的數(shù)據(jù)存儲(chǔ)粒度都帶來了在安全控制、管理治理上的諸多挑戰(zhàn)。未來的趨勢(shì)是將底層部署運(yùn)維細(xì)節(jié)和上層業(yè)務(wù)開發(fā)進(jìn)行隔離,因此,平臺(tái)需要系統(tǒng)如下的功能保證:

a) 安全。能夠大數(shù)據(jù)平臺(tái)上實(shí)現(xiàn)和傳統(tǒng)數(shù)據(jù)管理系統(tǒng)中相同口徑的數(shù)據(jù)管理安全策略,包括跨組件和工具的一體化的用戶權(quán)利管理、細(xì)粒度訪問控制、加解密和審計(jì)。

b) 統(tǒng)一數(shù)據(jù)模型。通過抽象定義的數(shù)據(jù)描述,不僅可以統(tǒng)一管理數(shù)據(jù)模型、復(fù)用數(shù)據(jù)解析代碼,還可以對(duì)于上層處理屏蔽底層存儲(chǔ)的細(xì)節(jié),從而實(shí)現(xiàn)開發(fā)/處理與運(yùn)維/部署的解偶。

簡化實(shí)時(shí)應(yīng)用。現(xiàn)在用戶不僅關(guān)心如何實(shí)時(shí)的收集數(shù)據(jù),而且關(guān)心同時(shí)盡快的實(shí)現(xiàn)數(shù)據(jù)可見和分析結(jié)果上線。無論是以前的delta架構(gòu)還是現(xiàn)在lambda架構(gòu)等,都希望能夠有一種解決快速數(shù)據(jù)的方案。Cloudera最新公開的Kudu雖然還沒有進(jìn)入產(chǎn)品發(fā)布,但卻是現(xiàn)在解決這個(gè)問題可能的最佳方案:采用了使用單一平臺(tái)簡化了快速數(shù)據(jù)的“存取用”實(shí)現(xiàn),是未來日志類數(shù)據(jù)分析的新的解決方案。

翹首展望,下一個(gè)十年

10年以后的Hadoop應(yīng)該只是一個(gè)生態(tài)和標(biāo)準(zhǔn)的“代名詞”了,下層的存儲(chǔ)層不只是HDFS、HBase和Kudu等現(xiàn)有的存儲(chǔ)架構(gòu),上層的處理組件更會(huì)像app store里的應(yīng)用一樣多,任何第三方都可以根據(jù)Hadoop的數(shù)據(jù)訪問和計(jì)算通信協(xié)議開發(fā)出自己的組件,用戶在市場(chǎng)中根據(jù)自己數(shù)據(jù)的使用特性和計(jì)算需求選擇相應(yīng)的組件自動(dòng)部署。

當(dāng)然,有一些明顯的趨勢(shì)必然影響著Hadoop的前進(jìn):

云計(jì)算

現(xiàn)在50%的大數(shù)據(jù)任務(wù)已經(jīng)運(yùn)行在云端,在3年以后這個(gè)比例可能會(huì)上升到80%。Hadoop在公有云的發(fā)展要求更加有保障的本地化支持。

硬件

快速硬件的進(jìn)步會(huì)迫使社區(qū)重新審視Hadoop的根基,Hadoop社區(qū)絕不會(huì)袖手旁觀。

物聯(lián)網(wǎng)

物聯(lián)網(wǎng)的發(fā)展會(huì)帶來海量的、分布的和分散的數(shù)據(jù)源。Hadoop將適應(yīng)這種發(fā)展。

以后的十年會(huì)發(fā)生什么?以下是筆者的一些猜想:

SQL和NoSQL市場(chǎng)會(huì)合并,NewSQL和Hadoop技術(shù)相互借鑒而最終走向統(tǒng)一,Hadoop市場(chǎng)和數(shù)據(jù)倉庫市場(chǎng)會(huì)合并,然而產(chǎn)品碎片化會(huì)繼續(xù)存在。

Hadoop與其他資源管理技術(shù)和云平臺(tái)集成,融合docker和unikernal等技術(shù)統(tǒng)一資源調(diào)度管理,提供完整多租戶和QoS能力,企業(yè)數(shù)據(jù)分析中心合并為單一架構(gòu)。

企業(yè)大數(shù)據(jù)產(chǎn)品場(chǎng)景化。以后直接提供產(chǎn)品和技術(shù)的公司趨于成熟并且轉(zhuǎn)向服務(wù)。越來越多的新公司提供的是行業(yè)化、場(chǎng)景化的解決方案,如個(gè)人網(wǎng)絡(luò)征信套件以及服務(wù)。

大數(shù)據(jù)平臺(tái)的場(chǎng)景“分裂”。與現(xiàn)在談及大數(shù)據(jù)言必稱Hadoop以及某某框架不同,未來的數(shù)據(jù)平臺(tái)將根據(jù)不同量級(jí)的數(shù)據(jù)(從幾十TB到ZB)、不同的應(yīng)用場(chǎng)景(各種專屬應(yīng)用集群)出現(xiàn)細(xì)分的階梯型的解決方案和產(chǎn)品,甚至出現(xiàn)定制化一體化產(chǎn)品。

后記

現(xiàn)在Hadoop儼然已經(jīng)成為企業(yè)數(shù)據(jù)平臺(tái)的“新常態(tài)”。我們很榮幸能夠見證Hadoop十年從無到有,再到稱王。在我們感動(dòng)于技術(shù)的日新月異時(shí),希望能通過本文能為Hadoop的昨天、今天和明天做出一點(diǎn)自己的解讀,算是為Hadoop慶祝10歲生日獻(xiàn)上的禮物。

筆者水平有限,加之時(shí)間緊迫,膚淺粗糙之處,還請(qǐng)各位讀者原諒和指教。文中有些內(nèi)容引自網(wǎng)絡(luò),某些出處未能找到,還請(qǐng)?jiān)髡咴彙?/p>

大數(shù)據(jù)的明天是美好的,未來Hadoop一定是企業(yè)軟件的必備技能,希望我們能一起見證。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 核心
    +關(guān)注

    關(guān)注

    0

    文章

    47

    瀏覽量

    15351
  • 物聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    2945

    文章

    47820

    瀏覽量

    415025
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    9063

    瀏覽量

    143760

原文標(biāo)題:一文看懂Hadoop

文章出處:【微信號(hào):aicapital,微信公眾號(hào):全球人工智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    拾光筑芯,共赴新程|英飛凌工業(yè)半導(dǎo)體公眾號(hào)十周年致謝

    很簡單——把最前沿的行業(yè)趨勢(shì)、最專業(yè)的技術(shù)解析、最實(shí)用的產(chǎn)品資訊,傳遞給每一位深耕工業(yè)領(lǐng)域的同行者。這十年,我們見證了工業(yè)領(lǐng)域的迭代升級(jí),也陪伴著無數(shù)工程師、
    的頭像 發(fā)表于 02-22 09:05 ?113次閱讀
    拾光筑芯,共赴新程|英飛凌工業(yè)半導(dǎo)體公眾號(hào)<b class='flag-5'>十周年</b>致謝

    機(jī)房項(xiàng)目中的時(shí)間系統(tǒng):從忽視謹(jǐn)慎的十年體會(huì)

    機(jī)房項(xiàng)目中的時(shí)間系統(tǒng):從忽視謹(jǐn)慎的十年體會(huì) 做系統(tǒng)集成、機(jī)房項(xiàng)目這些,我對(duì)“時(shí)間同步”這個(gè)基礎(chǔ)環(huán)節(jié)的看法,變化其實(shí)挺大的。 剛?cè)胄心菚?huì)兒,時(shí)間同步在方案里幾乎沒什么存在感。常見做法也很簡單:設(shè)備
    的頭像 發(fā)表于 01-20 13:13 ?148次閱讀

    電動(dòng)汽車無線充電系統(tǒng)標(biāo)準(zhǔn)

    電動(dòng)汽車無線充電標(biāo)準(zhǔn)體系構(gòu)建,推動(dòng)技術(shù)迭代與產(chǎn)業(yè)應(yīng)用,實(shí)現(xiàn)從無到有、從局部全面的標(biāo)準(zhǔn)化發(fā)展。
    的頭像 發(fā)表于 01-15 08:25 ?456次閱讀
    電動(dòng)汽車無線充電系統(tǒng)標(biāo)準(zhǔn)

    連續(xù)十年!金升陽蟬聯(lián)廣東省制造業(yè)500強(qiáng),彰顯穩(wěn)健增長硬實(shí)力

    近日,《2025廣東制造業(yè)500強(qiáng)企業(yè)研究報(bào)告》正式發(fā)布。金升陽憑借扎實(shí)的制造根基、持續(xù)的技術(shù)創(chuàng)新與穩(wěn)健的市場(chǎng)表現(xiàn),連續(xù)第十年榮登該榜單,位列第210位。 十年蟬聯(lián),不僅是一份時(shí)間維度的堅(jiān)持,更是
    的頭像 發(fā)表于 01-14 11:32 ?416次閱讀
    連續(xù)<b class='flag-5'>十年</b>!金升陽蟬聯(lián)廣東省制造業(yè)500強(qiáng),彰顯穩(wěn)健增長硬實(shí)力

    云天勵(lì)飛出席GAIR 2025 AI算力新十年專場(chǎng)

    12月13日,GAIR 2025「AI 算力新十年」專場(chǎng)在深圳舉行。作為國內(nèi)前沿技術(shù)與產(chǎn)業(yè)變革的重要風(fēng)向標(biāo),GAIR大會(huì)歷經(jīng)七屆積淀,見證并推動(dòng)了中國 AI 產(chǎn)業(yè)從算法突破、硬件迭代,商業(yè)落地
    的頭像 發(fā)表于 12-22 09:38 ?419次閱讀

    AI在此10 啟英泰倫成立10周啦!

    啟英泰倫成立十周年十年在科技奔騰不息的長河中不過一瞬但對(duì)于中國AI語音產(chǎn)業(yè)而言這十年卻是一段從無到有的波瀾壯闊的歲月十年前一句“你好”,可能
    的頭像 發(fā)表于 11-25 09:29 ?661次閱讀
    AI在此10 啟英泰倫成立10周<b class='flag-5'>年</b>啦!

    華為五大創(chuàng)新開啟非洲移動(dòng)產(chǎn)業(yè)黃金十年

    在2025非洲通信展(AfricaCom 2025)期間,華為無線網(wǎng)絡(luò)產(chǎn)品線營銷副總裁陳實(shí)發(fā)表“創(chuàng)新開啟非洲移動(dòng)產(chǎn)業(yè)黃金十年”主題演講,表示非洲是充滿活力的數(shù)字熱土,華為將聚焦“新流量、新體驗(yàn)
    的頭像 發(fā)表于 11-14 16:23 ?1441次閱讀

    十年后,AI會(huì)賦予工業(yè)怎樣的力量?

    在過去,AI改變了人們獲取信息的方式;而在未來十年,它將改變“生產(chǎn)力”的定義。 如果說蒸汽機(jī)讓人類從體力中解放,電力讓機(jī)械煥發(fā)生命,那么人工智能(AI)正在讓工業(yè)系統(tǒng)——獲得“思考”的能力”。 一
    的頭像 發(fā)表于 10-29 17:51 ?184次閱讀
    <b class='flag-5'>十年</b>后,AI會(huì)賦予工業(yè)怎樣的力量?

    十年·NDI在中國|影像志:見證視頻IP化的成長與未來

    十年前,NDI改變了世界;十年后,千視與NDI攜手,共同定義未來!《十年·NDI在中國紀(jì)錄片》從一個(gè)瘋狂的愿景開始NDI的誕生,源于一個(gè)看似瘋狂卻極具遠(yuǎn)見的構(gòu)想。它的創(chuàng)造者堅(jiān)信:隨著視頻技術(shù)
    的頭像 發(fā)表于 10-22 10:43 ?903次閱讀
    <b class='flag-5'>十年</b>·NDI在中國|影像志:<b class='flag-5'>見證</b>視頻IP化的成長與未來

    NDI 十年:誕生 · 愿景 · 發(fā)展 · 未來— 獨(dú)家專訪 NDI 創(chuàng)始人 Andrew Cross博士

    十年前,幾乎沒有人相信視頻制作能脫離昂貴的基帶設(shè)備,完全依賴電腦與網(wǎng)絡(luò);而今天,NDI已成為全球公認(rèn)的IP視頻制作標(biāo)準(zhǔn)。2025,既是NDI的十周年,也是Kiloview與NDI攜手走過的第
    的頭像 發(fā)表于 10-10 11:03 ?619次閱讀
    NDI <b class='flag-5'>十年</b>:誕生 · 愿景 · 發(fā)展 · 未來— 獨(dú)家專訪 NDI 創(chuàng)始人 Andrew Cross博士

    手機(jī)長焦進(jìn)化史:攀過十年,終抵云巔

    跨越十年的技術(shù)攻堅(jiān),凝聚成華為Pura 80 系列的“集大成者”
    的頭像 發(fā)表于 08-15 03:29 ?1217次閱讀
    手機(jī)長焦進(jìn)化史:攀過<b class='flag-5'>十年</b>,終抵云巔

    十年積淀,DPVR AI眼鏡將正式亮相

    表示想要購買AI眼鏡。一個(gè)新的智能設(shè)備時(shí)代,正在打開。在這個(gè)節(jié)點(diǎn),深耕XR領(lǐng)域十年的DPVR(大朋VR),將帶來它的首款A(yù)I智能眼鏡——DPVRAIGlasses
    的頭像 發(fā)表于 08-14 11:47 ?1073次閱讀
    <b class='flag-5'>十年</b>積淀,DPVR AI眼鏡將正式亮相

    36氪 | 從無到有的“聲”意經(jīng):智能語音芯片十年“平民化”演進(jìn)

    “智能家電”是如何聽懂語音指令的?無論是“開燈”還是“空調(diào)調(diào)低兩度”,便捷體驗(yàn)背后有人工智能充當(dāng)“傳令官”。實(shí)現(xiàn)語音交互主要有兩種路徑:云端處理與端側(cè)處理。云端方案依賴網(wǎng)絡(luò)將語音數(shù)據(jù)上傳至遠(yuǎn)程服務(wù)器解析,雖算力強(qiáng)大,卻存在響應(yīng)延遲、依賴網(wǎng)絡(luò)、隱私顧慮等短板。而端側(cè)AI則將關(guān)鍵的處理能力“內(nèi)置”于設(shè)備本身的芯片中,如同在設(shè)備上裝了一個(gè)即時(shí)響應(yīng)的“大腦”。它能在
    的頭像 發(fā)表于 08-11 18:12 ?1475次閱讀
    36氪 | <b class='flag-5'>從無到有</b>的“聲”意經(jīng):智能語音芯片<b class='flag-5'>十年</b>“平民化”演進(jìn)

    群芯微電子成立七周

    風(fēng)雨兼程,七創(chuàng)新不止。從零一、從無到有,群芯搭建了完整的光耦芯片設(shè)計(jì)團(tuán)隊(duì)、芯片制造工藝開發(fā)團(tuán)隊(duì)及光耦成品研發(fā)團(tuán)隊(duì),為國內(nèi)唯一在芯片自研、成品設(shè)計(jì)、產(chǎn)線工藝三方面都有較強(qiáng)研發(fā)實(shí)力
    的頭像 發(fā)表于 08-07 11:30 ?1487次閱讀

    請(qǐng)問如何使用MCU下載程序ADAU1462再到EEPROM?

    您好,我想使用STM32直接下載程序ADAU1462再到EEPROM,請(qǐng)問什么可以參考的手冊(cè)?或者例子。謝謝!
    發(fā)表于 04-15 07:31