在阿里巴巴2019云棲大會(huì)第二天的飛天智能主論壇上,阿里巴巴副總裁賈揚(yáng)清宣布,運(yùn)行在英特爾至強(qiáng)可擴(kuò)展處理器上的阿里云大數(shù)據(jù)計(jì)算服務(wù)MaxCompute,在大數(shù)據(jù)性能基準(zhǔn)測(cè)試TPCx-BB(TPCx-BigBench)中以100TB的規(guī)模創(chuàng)造世界紀(jì)錄,并在30TB規(guī)模下性能比第二名高一倍、便宜一半。
TPCx-BB是目前業(yè)界最全面的端到端大數(shù)據(jù)標(biāo)準(zhǔn)測(cè)試集,阿里云成為首家公布TPCx-BB成績(jī)的云服務(wù)提供商,MaxCompute達(dá)到的100TB是目前為止的最大數(shù)據(jù)集。
會(huì)后,英特爾高級(jí)首席工程師、大數(shù)據(jù)分析和人工智能創(chuàng)新院院長(zhǎng)戴金權(quán),阿里云計(jì)算平臺(tái)高級(jí)總監(jiān)關(guān)濤接受智東西等少數(shù)媒體的采訪,就英特爾與阿里云在大數(shù)據(jù)上的合作、雙方在AI和云計(jì)算上的合作、選擇TPCx-BB測(cè)試的原因、阿里云大數(shù)據(jù)平臺(tái)的特性、升級(jí)大數(shù)據(jù)平臺(tái)可能遇到的挑戰(zhàn)等問題一一予以解答。
“我們是第一家非Hadoop體系的大數(shù)據(jù)系統(tǒng)接入到這個(gè)測(cè)試,我們也是第一家以公共云的形式接入這個(gè)測(cè)試的?!标P(guān)濤表示,“之前的測(cè)試基本上都是用戶買一些服務(wù)器,然后在服務(wù)器上來做,最多是一個(gè)之前那種數(shù)據(jù)中心的形式。我們這次推動(dòng)是以云推動(dòng)服務(wù)的形式在上面做的測(cè)試?!?/p>
▲阿里云計(jì)算平臺(tái)高級(jí)總監(jiān)關(guān)濤(左),英特爾高級(jí)首席工程師、大數(shù)據(jù)分析和人工智能創(chuàng)新院院長(zhǎng)戴金權(quán)(右)
一、阿里大數(shù)據(jù)服務(wù)打破兩項(xiàng)世界紀(jì)錄
大數(shù)據(jù)性能基準(zhǔn)測(cè)試TPCx-BB由國(guó)際標(biāo)準(zhǔn)組織TPC(Transaction Processing Performance Council)制定,通過最常用大數(shù)據(jù)應(yīng)用場(chǎng)景,來全面衡量系統(tǒng)軟硬件性能,是業(yè)界選擇最佳軟硬件平臺(tái)的重要參考標(biāo)準(zhǔn)。
阿里云MaxCompute是一項(xiàng)大數(shù)據(jù)計(jì)算服務(wù),能面向大數(shù)據(jù)開發(fā)者,提供快速、完全托管的PB級(jí)數(shù)據(jù)倉(cāng)庫(kù)解決方案,從而經(jīng)濟(jì)、高效地分析和處理海量數(shù)據(jù),并支持SQL、MapReduce、Graph等多種計(jì)算模型。
這一新的世界紀(jì)錄源自英特爾和阿里云多年的合作。
英特爾作為測(cè)試基準(zhǔn)中BigBench的重要貢獻(xiàn)者,與阿里云開發(fā)團(tuán)隊(duì)深入合作,在軟硬結(jié)合層面做優(yōu)化,共同擴(kuò)展TPCx-BB測(cè)試集,增加對(duì)MaxCompute計(jì)算引擎的支持,并一起在TPCx-BB委員會(huì)中共同推廣MaxCompute,促成TPCx-BB官方測(cè)試集升級(jí),繼而正式納入阿里云MaxCompute計(jì)算引擎的支持。
此外,阿里云的EMR(Elastic MapReduce)大數(shù)據(jù)服務(wù)在另一項(xiàng)測(cè)試TPC-DS中也創(chuàng)造紀(jì)錄。
作為云服務(wù)提供商,相較于之前OEM公布的結(jié)果,阿里云大數(shù)據(jù)服務(wù)的成績(jī)不僅衡量了軟硬件的資本性投入,還包含了對(duì)運(yùn)營(yíng)成本的考量。
英特爾均以軟硬件全方位支持阿里云MaxCompute,為其提供在大數(shù)據(jù)引擎的標(biāo)準(zhǔn)適配、支持云計(jì)算模型、性能優(yōu)化及最大化內(nèi)存利用率等方面,大大提升大數(shù)據(jù)分析的性能和可擴(kuò)展性,從而增強(qiáng)云上的大數(shù)據(jù)挖掘和商業(yè)智能分析的能力。
它在TPCx-BB中可以達(dá)到25641BBQpm(每分鐘處理的請(qǐng)求量),最高性價(jià)比可達(dá)USD224.49/BBQpm。
由兩項(xiàng)紀(jì)錄可見,在英特爾先進(jìn)技術(shù)支持下,阿里云在云上大數(shù)據(jù)服務(wù)的規(guī)模和性價(jià)比方面都占據(jù)了業(yè)界領(lǐng)先的地位。
二、英特爾:硬件提升+軟硬協(xié)同優(yōu)化
英特爾與阿里云MaxCompute在Benchmark方面合作了約3年,希望通過軟硬件協(xié)作,在改進(jìn)硬件的同時(shí)也優(yōu)化軟件,從而使關(guān)鍵的計(jì)算性能有更大的提升。
從硬件角度來說,主要是硬件本身性能的提升,阿里云MaxCompute跑在基于英特爾至強(qiáng)可擴(kuò)展處理器的服務(wù)器上。
從軟件角度來說,雙方合作做了很多軟硬結(jié)合的相關(guān)優(yōu)化。第一,用大量英特爾工具去分析性能,找到性能的瓶頸;第二,針對(duì)其中很多核心的算法或算子,雙方工程師合作去提高各種性能。
比如說英特爾新的硬件比如說AVX-512以前是256位,現(xiàn)在是512位,那么這個(gè)新技術(shù)就會(huì)被應(yīng)用。再加上在純軟件層面的優(yōu)化,疊加到一起使得系統(tǒng)性能翻一倍。
另外,雙方也在探索如何將包括大數(shù)據(jù)和AI計(jì)算框架在內(nèi)的整個(gè)計(jì)算流水線上,能在補(bǔ)充能力上有更好的合作。
關(guān)濤說,這些優(yōu)化大多數(shù)不會(huì)是一項(xiàng)優(yōu)化提升30%、40%,更多可以理解是幾十到幾百個(gè)小點(diǎn)上的優(yōu)化在一起,是一個(gè)逐步的過程。
英特爾的人會(huì)定期從上海到杭州來,除此之外,阿里與英特爾在上海有聯(lián)合的實(shí)驗(yàn)室,雙方中間還打通了很多合作層面的環(huán)節(jié),讓兩個(gè)公司真正無縫的合作,因?yàn)榘⒗镌剖菄?guó)內(nèi)最大的云廠商,英特爾從芯片層面是最大的公司,雙方有非常好的合作意愿,聯(lián)合實(shí)驗(yàn)室、聯(lián)合項(xiàng)目組等工作都在進(jìn)行。
三、英特爾和阿里云在AI和云計(jì)算的合作
除了TPCx-BB合作外,英特爾與阿里云在機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等AI方面也有很多合作,包括英特爾的BigDL也可以跑在MaxCompute平臺(tái)上,為阿里內(nèi)部提供服務(wù)。
戴金權(quán)舉了個(gè)例子,今年7月,英特爾和阿里共同開啟了大數(shù)據(jù)處理分析競(jìng)賽天池大賽,其中英特爾就將Flink、Analytics Zoo以及其非易失內(nèi)存等產(chǎn)品提供給大賽。
作為戰(zhàn)略合作伙伴,英特爾與阿里云還有著從云到端的合作。雙方在云計(jì)算方面還共同發(fā)布了“阿拉丁神燈計(jì)劃”,共建“開發(fā)者云”平臺(tái)。這一平臺(tái)將全面覆蓋從入門級(jí)云客戶到頂級(jí)ISV開發(fā)者社區(qū),為開發(fā)者提供零門檻云體驗(yàn)。
英特爾不僅提供第二代英特爾至強(qiáng)可擴(kuò)展處理器、英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存、英特爾深度學(xué)習(xí)加速技術(shù)等先進(jìn)軟硬件,以建設(shè)“開發(fā)者云”平臺(tái),幫助開發(fā)者持續(xù)進(jìn)行創(chuàng)新,還將提供工程資源和推廣方面的支持,促進(jìn)阿里云平臺(tái)的生態(tài)系統(tǒng)發(fā)展,并推動(dòng)阿里云上的PaaS和IaaS應(yīng)用。
此外,英特爾與阿里云在物聯(lián)網(wǎng)、邊緣計(jì)算等方面也將繼續(xù)深入合作,為各行各業(yè)數(shù)字化轉(zhuǎn)型注入更強(qiáng)動(dòng)力。
四、阿里為什么選擇TPCx-BB測(cè)試?
阿里云計(jì)算平臺(tái)高級(jí)總監(jiān)關(guān)濤回憶了選擇TPCx-BB測(cè)試的原因。
2015年阿里最初開始測(cè)試時(shí),做的是非常簡(jiǎn)單的Softmark測(cè)試,是在大規(guī)模上純做排序。后來他們發(fā)現(xiàn),如果只做排序,無法代表越來越豐富的用戶作業(yè)場(chǎng)景,所以最后他們選擇了BigBench。
BigBench是一個(gè)相對(duì)權(quán)威的Benchmarking組織,同時(shí)包含大數(shù)據(jù)和機(jī)器學(xué)習(xí)的工作負(fù)載。它既包含了結(jié)構(gòu)化的24小時(shí)數(shù)據(jù),也包含了非結(jié)構(gòu)化的數(shù)據(jù)組成。它的測(cè)試結(jié)果更加豐富,有30種不同的維度基準(zhǔn)聯(lián)合來測(cè)評(píng)。
阿里通過這個(gè)測(cè)試來評(píng)判其系統(tǒng)優(yōu)化程度,這需要一個(gè)穩(wěn)定的測(cè)試集合。據(jù)關(guān)濤介紹,其成績(jī)基本上每年約翻一倍,2018年的成績(jī)比2017年的成績(jī)快一倍還多一點(diǎn),2019年的成績(jī)比2018年一倍稍差一點(diǎn),但這幾個(gè)成績(jī)都是現(xiàn)今在世界上非常領(lǐng)先的成績(jī)。
目前,阿里巴巴和英特爾新發(fā)布的成績(jī)是兩個(gè):(1)全球唯一一家通過100TB測(cè)試的系統(tǒng);(2)由于通過100TB的僅阿里一家,很難跟其他系統(tǒng)做對(duì)比,所以他們把這個(gè)維度稍微降低,和第二名系統(tǒng)在30TB上做對(duì)比,性能快一倍的同時(shí),成本還可以大約降低一半。
這意味著,如果用阿里的系統(tǒng),以前需要1000臺(tái)機(jī)器完成的工作,MaxCompute僅用一半就能完成。
阿里集團(tuán)內(nèi)部有接近10萬(wàn)臺(tái)服務(wù)器的規(guī)模,同時(shí)保持著非常高的增速,從這個(gè)角度上,性能對(duì)他們來說是非常重要的。關(guān)濤說,“這也是為什么我們一直通過以Benchmark作為抓手,來鍛煉我們的平臺(tái)去做更多的優(yōu)化。”
五、阿里云MaxCompute的兩個(gè)唯一性
關(guān)濤說,阿里巴巴是國(guó)內(nèi)唯一一家,也是英特爾的客戶里唯一一家具備全棧自研大平臺(tái)的公司。
他告訴智東西,目前阿里巴巴公共云付費(fèi)口的量級(jí)達(dá)到5000-10000,阿里將國(guó)內(nèi)行業(yè)性的專有云大概分成17個(gè)維度,其中有16個(gè)均已覆蓋,浙江省的“最多跑一次”項(xiàng)目、浙江省稅務(wù)系統(tǒng)、新浪微博、國(guó)內(nèi)最大在線互聯(lián)網(wǎng)保險(xiǎn)公司眾安保險(xiǎn)等都跑在阿里云上。
阿里巴巴從2009年就開始做飛天系統(tǒng),飛天系統(tǒng)當(dāng)時(shí)分為三大塊,分別是分布式存儲(chǔ)“盤古”、資源調(diào)度“伏羲”、分布式計(jì)算MaxCompute。
約從2015年起,阿里云開始通過各種Benchmark,一方面以此為抓手優(yōu)化其系統(tǒng),另外一方面用以來體現(xiàn)其性能和性價(jià)比。
在阿里巴巴內(nèi)部,MaxCompute存儲(chǔ)了阿里巴巴99%的數(shù)據(jù),承接95%以上的計(jì)算需求,可以理解成阿里巴巴經(jīng)濟(jì)體的大數(shù)據(jù)內(nèi)存,大家能想到的所有阿里數(shù)據(jù)都從這個(gè)平臺(tái)走,比如淘寶、拍立淘、支付寶、支付信用分等應(yīng)用,以及城市大腦、市政、石油、石化等面向各行業(yè)的底層性服務(wù)。
同樣也是從2015年開始,阿里在云上提供對(duì)外云服務(wù),這也是目前阿里云排名前十的旗艦產(chǎn)品之一。
關(guān)濤表示,MaxCompute的功能和能力和Hadoop是同樣場(chǎng)景,但是其實(shí)現(xiàn)并非基于Hadoop,而是按照從存儲(chǔ)到計(jì)算都完全自研的系統(tǒng)。它有兩個(gè)唯一性:
其一,MaxCompute所做的是一個(gè)非Hadoop的系統(tǒng)測(cè)試;
其二,該系統(tǒng)在10年前開始做時(shí),即按照云原生的角度設(shè)計(jì),是第一個(gè)以云平臺(tái)的方式做這個(gè)測(cè)試的,而此前接入此測(cè)試的基本屬于Hadoop體系的原版或改進(jìn)版,以線下自己買服務(wù)器這種方式來做。
這對(duì)計(jì)價(jià)系統(tǒng)、計(jì)費(fèi)系統(tǒng)、整個(gè)BigBench的體系都有改變。他舉例道,之前的計(jì)費(fèi)計(jì)價(jià)模式是,如果購(gòu)買線下服務(wù)器可能要3年,而測(cè)試只用3天,但在云上的話,因?yàn)樵贫吮緛砭褪情_箱即用,不用時(shí)也不收費(fèi),無需做采購(gòu)硬件和應(yīng)用規(guī)劃,時(shí)間上只用算3天即可。
阿里云與英特爾認(rèn)為,云是未來發(fā)展的方向,大家會(huì)慢慢自建機(jī)房的方式轉(zhuǎn)向云。
六、升級(jí)大數(shù)據(jù)平臺(tái)所面臨的挑戰(zhàn)
在采訪期間,關(guān)濤從多個(gè)維度分享了升級(jí)大數(shù)據(jù)平臺(tái)可能會(huì)面臨的挑戰(zhàn)。
從最底層看,雖然大數(shù)據(jù)平臺(tái)是分布式系統(tǒng),但最基本的單元實(shí)際上是每個(gè)機(jī)器上運(yùn)行的算子。這個(gè)算子運(yùn)行在下層硬件的操作系統(tǒng)之上的,是最基礎(chǔ)的優(yōu)化,需考慮怎么樣讓底層設(shè)計(jì)更快、怎樣支持下層硬件。再往上是多機(jī)之間的網(wǎng)絡(luò)通訊問題,再往上是分布式系統(tǒng)的另外一點(diǎn),叫水平拓展。
另外一個(gè)挑戰(zhàn)是,如何能在10萬(wàn)臺(tái)規(guī)模上做到對(duì)應(yīng)的水平。舉例而言,以前是5萬(wàn)臺(tái),增加到10萬(wàn)臺(tái)后,性能能否按照服務(wù)器數(shù)量的增長(zhǎng)水平翻一番。
如果分布式系統(tǒng)只有幾十臺(tái)、幾百臺(tái)服務(wù)器可能比較容易,但到萬(wàn)臺(tái)規(guī)模還是比較難的,特別是當(dāng)達(dá)到10萬(wàn)臺(tái)規(guī)模時(shí),這些機(jī)器甚至都不在一個(gè)數(shù)據(jù)中心里面。
比如10萬(wàn)臺(tái)機(jī)器分散在杭州、內(nèi)蒙、河北,要使得在用戶看來這10萬(wàn)臺(tái)機(jī)器是一體的,而實(shí)際上它又是分布式的,其調(diào)度系統(tǒng)、智能調(diào)度數(shù)據(jù)和作業(yè)使它們?cè)?0萬(wàn)臺(tái)機(jī)器上能暢通地瀏覽,這里面包含負(fù)載均衡、調(diào)度策略的平衡,還要考慮偶爾某些機(jī)器壞掉的情況。
另外,TPCx-BB測(cè)試不僅看速度,還要看成本,這也是大數(shù)據(jù)平臺(tái)的客戶所在意的兩個(gè)指標(biāo)。而僅僅是機(jī)器數(shù)量的增多,會(huì)導(dǎo)致成本上升,如何實(shí)現(xiàn)兩者的平衡同樣是一個(gè)考驗(yàn)。
七、阿里大數(shù)據(jù)平臺(tái)的三個(gè)特點(diǎn)
關(guān)于阿里大數(shù)據(jù)平臺(tái)的特點(diǎn),關(guān)濤談到評(píng)測(cè)、具體能力和系統(tǒng)特點(diǎn)等三個(gè)角度。
從評(píng)測(cè)層面來說,阿里應(yīng)該是國(guó)內(nèi)做所有大數(shù)據(jù)評(píng)測(cè)中評(píng)價(jià)最高的一家公司。
從具體能力來說,阿里較早開始做云計(jì)算、大數(shù)據(jù),當(dāng)初最早發(fā)現(xiàn)很多開源的技術(shù)很難達(dá)到阿里內(nèi)部和他們所認(rèn)為的云成本控制要求,因此選擇了更艱難的自研之路,需要更多的資源投入、自己建標(biāo)準(zhǔn)?!暗俏覀兓〞r(shí)間堅(jiān)持下來了?!标P(guān)濤說。
從系統(tǒng)特點(diǎn)來說,其系統(tǒng)有如下幾個(gè)方面。
第一方面,阿里非常關(guān)注性能和成本,包括底層實(shí)現(xiàn),比如阿里更多在大數(shù)據(jù)平臺(tái)下層用C++代碼,而大部分大數(shù)據(jù)平臺(tái)都是用Java來做的。我們C++可以更容易發(fā)揮優(yōu)勢(shì),同時(shí)在優(yōu)化層面也可以更容易。
第二方面,阿里也是一家大數(shù)據(jù)的公司,有非常多的數(shù)據(jù),其大數(shù)據(jù)系統(tǒng)經(jīng)過阿里巴巴業(yè)務(wù)的充分錘煉和實(shí)踐。它既包括螞蟻金服這種金融級(jí)大數(shù)據(jù)的要求,也包括雙十一極致峰值沖擊的要求。
第三方面,其研發(fā)團(tuán)隊(duì)背后靠的是阿里研究體系“達(dá)摩院”,MaxCompute也是“達(dá)摩院”加持的大數(shù)據(jù)平臺(tái)。
在偏硬件層面,阿里云和包括英特爾在內(nèi)的企業(yè)合作,這種合作也會(huì)給他們帶來非常好的性能提升。
結(jié)語(yǔ):大數(shù)據(jù)是AI的數(shù)據(jù)支撐底座
在當(dāng)日上午的主論壇中,阿里巴巴副總裁賈揚(yáng)清提到一個(gè)概念:“AI算法孕育于數(shù)據(jù)的土壤?!彼f,由于深度學(xué)習(xí)的發(fā)展,人們發(fā)現(xiàn)更多數(shù)據(jù)往往帶來更好性能;真正落地的實(shí)際應(yīng)用背后都有大量數(shù)據(jù)在支撐;數(shù)據(jù)有非常大的多樣性和復(fù)雜性,需要一套成熟的方法論做數(shù)據(jù)清洗、建模。
會(huì)后采訪期間,關(guān)濤也表達(dá)了相似的看法,他表示大數(shù)據(jù)是AI的數(shù)據(jù)支撐底座,在阿里,大數(shù)據(jù)平臺(tái)和AI平臺(tái)是一個(gè)“雙生系統(tǒng)”。比如,AI平臺(tái)的數(shù)據(jù)是從大數(shù)據(jù)平臺(tái)上來的,在前一部分?jǐn)?shù)據(jù)的處理也是由大數(shù)據(jù)平臺(tái)來做,完成后會(huì)推到AI平臺(tái)上做機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的處理,數(shù)據(jù)也可能再回流大數(shù)據(jù)平臺(tái)做其他的工作。
同樣,戴金權(quán)認(rèn)為大數(shù)據(jù)和AI在真正的現(xiàn)實(shí)應(yīng)用中應(yīng)緊密聯(lián)合在一起。如何把AI模型應(yīng)用和大數(shù)據(jù)處理分析的一整套流水線打通、將不同的組件更好的結(jié)合,是英特爾、阿里云都在做的事情。
他對(duì)國(guó)內(nèi)大數(shù)據(jù)技術(shù)的實(shí)力非常認(rèn)可,認(rèn)為國(guó)內(nèi)外大數(shù)據(jù)技術(shù)都在同一個(gè)起跑線,都能做到非常好的水準(zhǔn)。全世界的工程師都在合作,某種意義上,國(guó)內(nèi)的數(shù)據(jù)更大、應(yīng)用場(chǎng)景更多。
-
英特爾
+關(guān)注
關(guān)注
61文章
10313瀏覽量
180925 -
阿里巴巴
+關(guān)注
關(guān)注
7文章
1648瀏覽量
49295 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
9088瀏覽量
143982
發(fā)布評(píng)論請(qǐng)先 登錄
深化阿里云生態(tài)合作 云優(yōu)化治理能力再獲權(quán)威認(rèn)可
阿里云SLB負(fù)載均衡配置指南
雙百!100%中國(guó)車企全球業(yè)務(wù)接入阿里云
阿里云成為首家公布TPCx-BB成績(jī)的云服務(wù)提供商
評(píng)論