歷經(jīng)十多年發(fā)展,大數(shù)據(jù)應用井噴式涌現(xiàn),不但讓商業(yè)和企業(yè)的先行者利用了數(shù)據(jù)的價值,獲得商業(yè)成功,而且改變了當前全球企業(yè)業(yè)務發(fā)展的驅(qū)動力,由原來的流程等驅(qū)動,發(fā)展到現(xiàn)在的數(shù)據(jù)驅(qū)動。
另一個變化就是在企業(yè)級市場,大數(shù)據(jù)核心軟件主要由國外企業(yè)把持的市場格局開始松動,中國大數(shù)據(jù)核心軟件迅速成長,在一些方面實現(xiàn)了超越。
在全球大數(shù)據(jù)軟件分工越來越專業(yè)、競爭越來越有序的環(huán)境下,大數(shù)據(jù)應用對大數(shù)據(jù)基礎軟件提出了更高的要求,在大數(shù)據(jù)核心軟件眾多發(fā)展路線中,誰會邁過這道坎,引領發(fā)展呢?
技術路線之爭延綿十余年
在大數(shù)據(jù)基礎軟件發(fā)展中,技術路線發(fā)展演繹精彩紛呈,令人目不暇接。不過,經(jīng)過多方采訪,記者發(fā)現(xiàn)目前大數(shù)據(jù)軟件的技術路線基本可以分為四大類:
第一條技術路線就是Hadoop
提起大數(shù)據(jù),依然不能不提Hadoop。因為Hadoop讓海量的數(shù)據(jù)能分布存儲,并能分布的存取與處理。過去Hadoop幾乎成了大數(shù)據(jù)的代名詞。在大數(shù)據(jù)發(fā)展中,開源大數(shù)據(jù)平臺Hadoop占據(jù)至關重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三駕馬車。
提到Hadoop,就不能不提Cloudera。雖然Cloudera也發(fā)布商業(yè)化工具產(chǎn)品,但以提供Hadoop發(fā)行版為主。產(chǎn)品分為免費版和企業(yè)版,只有企業(yè)版的核心組件不對外開放,其他技術均提供給社區(qū)。
Hortonworks就是通過Hadoop框架搭建其產(chǎn)品的最大的一家公司,將自己的技術完全貢獻給社區(qū),不靠產(chǎn)品獲利,而是靠向企業(yè)客戶提供支持服務和后期維護盈利。
MapR以發(fā)布商業(yè)化工具產(chǎn)品為主,同時提供Hadoop發(fā)行版?;陂_源技術,提高穩(wěn)定性,同時強化了一些高級功能,定制化程度較高,核心技術是不公開的,營收主要來自軟件收入。MapR的企業(yè)級產(chǎn)品的優(yōu)勢是更好地管理和確保數(shù)據(jù)在Hadoop中的可恢復性和可靠性,以及多租戶和高可用性功能提供了工具。
專家認為,作為大數(shù)據(jù)基礎軟件的一大技術路線,基于開源Hadoop發(fā)展的最大優(yōu)勢就是可處理的數(shù)據(jù)量龐大且運行穩(wěn)定。在節(jié)點資源不增加的情況下,運行速度雖然不占優(yōu)勢,但卻十分穩(wěn)定。既是優(yōu)勢也是劣勢,Hadoop在批處理方面的強大無法掩蓋其在交互式分析和流處理方面的缺憾。
第二條技術路線就是Spark。
Gartner連續(xù)多年唱衰Hadoop,并認為,盡管企業(yè)對大數(shù)據(jù)解決方案的需求不斷增長,但對Hadoop的需求沒有像預期那樣加速。同時,25%的Spark已經(jīng)開始脫離Hadoop生態(tài)單獨運行。
一位業(yè)界專家介紹非常形象:如果說Hadoop是一家大型包工隊,Hadoop是人工的搬磚蓋房子,所以慢,但是穩(wěn)妥;Spark是用機器搬磚蓋房子,可以很快很靈活,缺點就是更容易出機械故障。
Hadoop開始升級,指定調(diào)度專家YARN調(diào)度工人,其MapReduce也可以支持Mesos;Spark從多個倉庫(HDFS、Cassandra、S3、HBase)搬磚,還允許不同專家如YARN/ MESOS對人員和任務進行調(diào)度。
其實,這兩者并不是水火不容。Spark經(jīng)常和Hadoop團隊合作,讓問題變得更加復雜。不管怎么說,Spark和Hadoop都是兩個獨立的包工隊,都有著各自的優(yōu)缺點和特定的業(yè)務用例。
Spark技術的代表企業(yè)是Databricks。Databricks公司是由加州大學伯克利分校負責開發(fā)流行的開源Apache Spark數(shù)據(jù)處理框架的團隊創(chuàng)建的。該公司幫助大企業(yè)快速處理、整合和分析大量數(shù)據(jù)。它的統(tǒng)一分析平臺旨在孤立的數(shù)據(jù)存儲系統(tǒng)之間建立數(shù)字管道,并幫助工程師和數(shù)據(jù)科學家更好地溝通。
Spark的優(yōu)勢是在內(nèi)存中運行速度比Hadoop快100倍,在磁盤上運行速度快10倍。此外,Spark在機器學習應用中的速度同樣更快,如Naive Bayes和k-means。
所以說大數(shù)據(jù)應用基礎平臺并不是固定的,也是需要優(yōu)化的,優(yōu)化后的性能表現(xiàn)會有出色的表現(xiàn)。
第三條技術路線就是以星環(huán)科技為代表的自主開發(fā)。
中國獨特的國情帶來的大數(shù)據(jù)量,國外的技術在處理本土業(yè)時經(jīng)常會水土不服:中國用戶需要處理的數(shù)據(jù)量遠超過之前在其他國家的需求。同時中國用戶在應用場景方面有著非常強的創(chuàng)新意識,需要處理的場景復雜度也超過了其他國家用戶。星環(huán)科技就是專注解決用戶難點,不盲從社區(qū)或其他路線的代表,走出了一條獨特的自主研發(fā)技術創(chuàng)新之路。星環(huán)的產(chǎn)品體系已經(jīng)從最早的分析型數(shù)據(jù)庫擴展至分析型數(shù)據(jù)庫、實時計算、全文檢索數(shù)據(jù)庫、圖數(shù)據(jù)庫、Bigtable數(shù)據(jù)庫、交易數(shù)據(jù)庫、基于容器技術的數(shù)據(jù)云等,從底層資源調(diào)度到上面的計算引擎,形成了一條有別于Hadoop或Spark、而具有星環(huán)特色的技術路線,實現(xiàn)了多個領域的技術突破。例如分析型數(shù)據(jù)庫ArgoDB采用了星環(huán)統(tǒng)一的計算引擎以及統(tǒng)一的存儲管理系統(tǒng),同時針對閃存設計的存儲格式,取代了傳統(tǒng)的Hadoop+MPP的結構,同時對比MPP和Hadoop平臺在數(shù)據(jù)量較大時都有性能上的優(yōu)勢。
在實時流處理領域,星環(huán)自主的Slipstream不僅僅支持SQL的實時數(shù)據(jù)庫,搭載了一個自主研發(fā)的規(guī)則引擎和復雜事件處理引擎,用戶可以直接在對業(yè)務所需要用的計算方式進行直接的編寫,還可以對開發(fā)的結果進行一站式的部署調(diào)試,極大的方便了業(yè)務的開發(fā)人員。
第四條其他技術路線。
其中最重要的一條就是上一代MPP架構的繼續(xù)沿用。早在大數(shù)據(jù)廣為人知之前,大規(guī)模并行處理MPP架構就已誕生。其設計理念是對傳統(tǒng)關系型數(shù)據(jù)庫進行分布式化,是對以往數(shù)據(jù)庫擴展性差的改良。Teradata、Greenplum、Vertica、Netezza等大家早已熟知企業(yè)都是基于此架構來完成解決方案。不過由于其根源仍是對舊技術的修修補補,不支持非結構化數(shù)據(jù)存儲分析,擴展上限仍不足夠,硬件設備昂貴等特性隨著時間逐漸暴露出來。
除此之外,還有部分專屬領域的技術活躍在市場上,例如應用于網(wǎng)站數(shù)據(jù)存儲的文檔數(shù)據(jù)庫MongDB,專注于滿足各類復雜搜索需求的ElasticSearch,常被應用于會話緩存的高速NoSQL數(shù)據(jù)庫Redis,圖數(shù)據(jù)庫Neo4J,以及由實時計算引擎正蔓延成為通用大數(shù)據(jù)引擎的Flink等。這些技術有幾大特點:一是大多是開源系統(tǒng);二是應用面相對較窄,影響范圍有限。
2.四條技術路線開始出現(xiàn)分化
伴隨著技術的興起到發(fā)展成熟,技術路線也從百花齊放到部分技術路線消亡或者合并。任何技術的發(fā)展最終只會有兩三條路線沉淀下來。實踐證明,大數(shù)據(jù)基礎平臺是不可或缺的。但是隨著應用的深入,要想利用開源通過服務或者訂閱賺錢的難度卻越來越大了,要把它做成生意的門檻越來越高了。近年來,大數(shù)據(jù)基礎軟件典型的四條技術路線開始出現(xiàn)分化。
首先 Hadoop 商業(yè)化最典型的公司就是Hadoop的三駕馬車——Hortonworks、Cloudera和MapR。2014年,Hortonworks成功在納斯達克上市。該公司以每股16美元的價格發(fā)行625萬股股票,募集1億美元資金,開盤首日上漲幅度達到60%,市值接近11億美元。
2017年4月底,Cloudera以每股15美元的定價在紐約證券交易所上市,股價一日上漲超20%至18.09美元。這一價格也超出了此前公司12到14美元的預期范圍。Cloudera市值約為23億美元,遠低于2014年英特爾給出的41億美元估值。
2018年,大數(shù)據(jù)領域的兩大巨頭公司Cloudera和Hortonworks因為連連虧損,宣布平等合并,Cloudera以股票方式收購Hortonworks,Cloudera股東最終獲得合并公司60%的股份。這筆交易意味著Hadoop市場再也無法維持兩大競爭對手對峙的狀態(tài)了。但合并后公司股價繼續(xù)下跌,在過去的七個月市值減半。
MapR于2009年成立,曾在五輪風險投資里拿到1.14億美元。公司的風投支持者通常希望看到兩個結果,其一是上市,另一個是被收購。但是公司MapR的首席執(zhí)行官米爾斯表示,“我想上市,但我也想尊重上市的步驟?!?/p>
遺憾的是,MapR于近期宣布,如果無法獲得額外的資金,可能削減122個工作崗位,并關閉其位于美國加利福尼亞州的總部。關閉總部意味著什么?是企業(yè)關門大吉,還是不要行政總部,繼續(xù)發(fā)展開源系統(tǒng),幾乎無人可以確認。
其次,Spark技術的代表企業(yè)Databricks公司2018年的經(jīng)常性收入達到1億美元,訂閱收入增加了兩倍。但是其業(yè)務方向已經(jīng)轉移到“大數(shù)據(jù)分析和人工智能解決方案”。行業(yè)內(nèi)更多的將其看成一家AI公司。
第三, 星環(huán)科技堅持走自己的技術路線,堅持自主研發(fā)和技術創(chuàng)新,成果豐碩。
星環(huán)科技的產(chǎn)品連續(xù)兩年入選工信部“星河獎”最佳大數(shù)據(jù)產(chǎn)品獎。知名咨詢機構wikibon在2018年的《大數(shù)據(jù)市場分析報告》中,星環(huán)科技作為唯一進入報告的中國廠商,被評價為“產(chǎn)品策略對西方供應商非常具有指導意義,因為它解決了許多同行的開源版本的限制”。因為超前的技術眼光和產(chǎn)品發(fā)展路線,星環(huán)科技行業(yè)技術引領者的地位獲得了初步認可。
另外,Elasticsearch則轉為實時分布式搜索和分析引擎,可以應用在任何實時檢索的場景中。基于此技術的公司Elastic一手抓住搜索,一手專注開源,利用創(chuàng)新的搜索引擎技術和開源的軟件,成為大數(shù)據(jù)搜索和數(shù)據(jù)實時處理領域的頭部企業(yè)。公司成功在紐約證券交易所上市。
3.誰能邁過這道坎,成為引領者?
那么,哪條大數(shù)據(jù)軟件技術發(fā)展路線能成為領導者呢?筆者認為,主要看四個方面:
首先,適應性,能否適應云計算發(fā)展大勢。企業(yè)向公有云的轉變,各種規(guī)模的公司都在增加對AWS、Azure、阿里云、Google Cloud等云服務的采用。如果企業(yè)正在轉向云計算,那么選擇將大數(shù)據(jù)視為其中一部分的云平臺既省時又省力。利用云計算的資源池化,利用容器技術統(tǒng)一管理和調(diào)度,支持單行擴展,按需使用,按需付費,讓業(yè)務人員隨時使用數(shù)據(jù)分析平臺成為一個發(fā)展方向。
第二,獨特性。軟件產(chǎn)品自主可控固然重要,但是獨特性則是市場競爭致勝的法寶。星環(huán)科技CEO孫元浩說,我們發(fā)展新技術最看重獨特性、領先性。
第三,豐富性。目前來看,單有大數(shù)據(jù)平臺還不夠,應該與人工智能、云計算融合發(fā)展,提供一體化平臺,彈性資源策略讓服務隨處可見。另外,全棧自主開發(fā)也成為一道風景。
第四,生態(tài)體系與用戶成功實踐經(jīng)驗。大數(shù)據(jù)和云計算的基礎軟件,需要一個強大的生態(tài)才能夠形成一定的規(guī)模。覆蓋的行業(yè)廣泛性、用戶應用成功經(jīng)驗等也都是非常重要的因素。
提供基于私有云服務的云上大數(shù)據(jù)廠商BlueData在去年將服務延伸至人工智能和分析服務,今年被HP收購,以提升HP為客戶提供的服務全棧性,彌補HP的短板。而另外一家公司Qubole則是選擇了在各個公有云上提供數(shù)據(jù)分析與機器學習平臺,其口號是“讓你的數(shù)據(jù)湖變成利潤中心”。
星環(huán)科技于2018年在行業(yè)首先推出了數(shù)據(jù)云平臺Transwarp Data Cloud,這一云原生平臺采用容器技術,以數(shù)據(jù)為中心,通過提供完整的數(shù)據(jù)、應用和智能的開發(fā)工具,實現(xiàn)數(shù)據(jù)和應用互通互聯(lián)。今年5月推出的TDC 2.0與上一版本相比,能更全面地滿足不用業(yè)務、不同角色的工作需求。經(jīng)過近4年的發(fā)展,星環(huán)形成了有突出的技術優(yōu)勢的PaaS產(chǎn)品——星環(huán)數(shù)據(jù)云。
有趣的是,2018年Cloudera和Hortonworks宣布合并時也創(chuàng)建其首個企業(yè)數(shù)據(jù)云。除了主打是100%開源外,能夠同時兼容混合云、多云部署應用情境,提供企業(yè)用戶足夠的搬遷、部署彈性,避免被特定廠商綁定。
僅在公有云上提供DB-PaaS的公司Snowflake去年估值已達35億美金,而業(yè)績不到1億美金,估值倍數(shù)超過了其他同類公司。星環(huán)的數(shù)據(jù)云TDC除了提供與Snowflake類似服務外,還可以支持 DB-PaaS、Application PaaS和Analytic PaaS三個核心模塊,并能支持公有云-公有云、公有云-私有云之間互操作,有效的融合了數(shù)據(jù)、應用和智能,異構云的互通擴大了產(chǎn)品應用范圍。
隨著大數(shù)據(jù)技術的不斷發(fā)展,預計在未來三到五年內(nèi),會發(fā)展為僅剩一到兩條技術路線。誰能成為大數(shù)據(jù)技術引領者,我們將拭目以待!
電子發(fā)燒友App











































評論