浪潮云平臺InCloud OpenStack是面向下一代云數(shù)據(jù)中心和云原生應(yīng)用的智慧云操作系統(tǒng),全面基于OpenStack,采用開放標準技術(shù)路線,實現(xiàn)用戶業(yè)務(wù)的自動感知、業(yè)務(wù)的智能管理和服務(wù)的自動化交付,為用戶構(gòu)建開放、融合、安全的云,支撐面向未來的智慧計算世界。浪潮云平臺InCloud OpenStack已成功應(yīng)用于金融、政府、能源、環(huán)保、教育等行業(yè),累計擁有3000+用戶。
OpenStack是開源 IaaS解決方案,組件眾多,架構(gòu)復(fù)雜,并且技術(shù)棧長。隨著基于OpenStack的客戶系統(tǒng)和業(yè)務(wù)規(guī)模的快速提升,實現(xiàn)對系統(tǒng)和業(yè)務(wù)進行高效、快速、靈活監(jiān)控和告警的需求越來越迫切,既要保證服務(wù)的高可用、高性能、可擴展,又要提高異常處理效率,降低損失。
以zabbix、為代表的傳統(tǒng)監(jiān)控,具有采集方式多樣、插件成熟、配置靈活等優(yōu)點,但在大規(guī)模OpenStack集群監(jiān)控中,卻存在如下缺點:
配置麻煩,無法根據(jù)節(jié)點上運行的服務(wù)自動配置監(jiān)控項。性能瓶頸,多采用關(guān)系型數(shù)據(jù)庫,并發(fā)能力、讀寫性能等無法支撐大規(guī)模集群。用戶界面專業(yè)復(fù)雜,不夠簡單易用。不易擴展,以監(jiān)控為目標,不易添加智能分析等功能。
浪潮云平臺InCloud OpenStack監(jiān)控模塊,提升監(jiān)控效率
浪潮云平臺InCloud OpenStack監(jiān)控模塊就是在這個背景下誕生并不斷進行優(yōu)化的,其整體架構(gòu)圖如下所示,此架構(gòu)能夠有效提升監(jiān)控數(shù)據(jù)獲取密度與存儲數(shù)量級,為運維決策提供數(shù)據(jù)支撐。
浪潮云平臺InCloud OpenStack監(jiān)控模塊
浪潮云平臺InCloud OpenStack監(jiān)控模塊提供了簡單易用的頁面供用戶進行監(jiān)控管理配置及查看,包括:支持資源實時指標、歷史曲線;支持采集配置、告警配置、通知配置;支持配置的及時下發(fā)和快速生效;支持告警歷史記錄、通知歷史記錄的管理。
浪潮云平臺InCloud OpenStack監(jiān)控頁面面對日十億量級監(jiān)控項,浪潮InCloud OpenStack如何實現(xiàn)秒級監(jiān)控?
大規(guī)模監(jiān)控是浪潮云平臺InCloud OpenStack解決的最核心問題。以某行業(yè)客戶的InCloud OpenStack項目為例,其監(jiān)控模塊的物理服務(wù)器規(guī)模有500+臺,性能數(shù)據(jù)采集周期10秒,服務(wù)數(shù)據(jù)周期1-5分鐘,當全部監(jiān)控項都設(shè)置為采集時,每個節(jié)點約2000+監(jiān)控項/周期,每天集群約產(chǎn)生50億項監(jiān)控數(shù)據(jù)。
面對如此龐大量級的監(jiān)控項,并實現(xiàn)秒級監(jiān)控,需要解決五個主要問題:大規(guī)模部署和海量監(jiān)控的采集配置該如何進行?大規(guī)模集群的采集壓力如何化解?監(jiān)控數(shù)據(jù)的實時性和高并發(fā)如何應(yīng)對?多OpenStack集群的集中監(jiān)控如何實現(xiàn)?面對海量告警,又該怎樣快速定位問題?
面對這五個棘手問題,浪潮云平臺InCloud OpenStack逐一給出了解決方案:
1、容器化一鍵部署
集群規(guī)模的擴大對于云平臺監(jiān)控的部署特別是監(jiān)控的配置的要求很高,浪潮云平臺InCloud OpenStack監(jiān)控模塊的安裝部署實現(xiàn)了容器化,采用Kolla-ansible進行一鍵化部署,部署流程包括采集配置、容器部署、配置表初始化、腳本發(fā)布、監(jiān)控變量導(dǎo)入、頁面導(dǎo)入等,部署時根據(jù)OpenStack節(jié)點角色自動配置采集項,例如當此節(jié)點部署有mariadb服務(wù),則此節(jié)點配置mariadb相關(guān)采集;當此節(jié)點部署nova-compute服務(wù)時,則此節(jié)點配置nova-compute相關(guān)采集。通過此方案InCloud OpenStack實現(xiàn)了監(jiān)控一鍵部署。
2、主被動混合采集機制
浪潮云平臺InCloud OpenStack監(jiān)控模塊數(shù)據(jù)采集支持集中采集、代理采集以及事件采集三種采集方式,如下圖所示,可實現(xiàn)異構(gòu)設(shè)備的數(shù)據(jù)采集,具體包括OpenStack系統(tǒng)本身(宿主機、虛擬機、集群、容器、核心服務(wù))、原生OpenStack(宿主機、虛擬機、集群、核心服務(wù))、操作系統(tǒng)、數(shù)據(jù)庫、存儲服務(wù)、中間件、CEPH存儲等。
這種主被動混合采集機制,既減少了性能數(shù)據(jù)的采集壓力,有效地校驗了關(guān)鍵資源的數(shù)據(jù)完整性,又提高了關(guān)鍵數(shù)據(jù)的實時性。
混合采集機制3、高效緩存,兼顧時效
浪潮云平臺InCloud OpenStack采集控器采用客戶端緩存機制,可以配置時間和緩存量兩個緩存閾值,默認時間閾值,只有達到閾值時,才能觸發(fā)數(shù)據(jù)發(fā)送,這種機制大大減低了存儲端的寫入并發(fā),同時兼顧了數(shù)據(jù)的時效性。另外客戶端采集采用go語言開發(fā),具有并發(fā)好、資源占用低、插件開發(fā)簡單等優(yōu)點。
高效緩存,兼顧時效4、多OpenStack監(jiān)控級聯(lián)架構(gòu)
隨著多云的應(yīng)用越來越廣泛,多數(shù)據(jù)中心的集中監(jiān)控亟待解決。浪潮云平臺InCloud OpenStack采用自研監(jiān)控管理組件pluto級聯(lián)方案,每個OpenStack集群采用獨立的pluto用于配置管理上層pluto的接口進行調(diào)用;而上層的監(jiān)控平臺的pluto對所有集群的pluto進行統(tǒng)管,并對各集群數(shù)據(jù)進行分析。其架構(gòu)圖如下所示:
監(jiān)控級聯(lián)架構(gòu)5、智能告警聚合及分析
大規(guī)模集群的海量洪水告警及問題的快速定位是運維過程中需解決的最大難題,浪潮云平臺InCloud OpenStack監(jiān)控模塊采用兩種方式解決此問題:一是以資源為粒度發(fā)送通知。例如宿主機、云主機等為資源類型,宿主機A為一個資源,監(jiān)控模塊會對該資源的所有監(jiān)控項進行聚合,以告警項最嚴重的狀態(tài)為資源狀態(tài)發(fā)送通知,如下圖所示;二是根因分析,采用jaccard等算法對告警進行分析,得到根本原因,供運維人員參考。
告警聚合流程此外,整個浪潮云平臺InCloud OpenStack監(jiān)控系統(tǒng)采用松耦合的架構(gòu),可以添加Hadoop存儲歷史數(shù)據(jù),實現(xiàn)高吞吐量和超大規(guī)模數(shù)據(jù)集的處理,也可以添加Spark作為監(jiān)控告警數(shù)據(jù)分析工具。
浪潮云平臺InCloud OpenStack已經(jīng)在多個行業(yè)完成部署,其監(jiān)控模塊幫助某金融機構(gòu)和商業(yè)公司實現(xiàn)了大規(guī)模集群監(jiān)控,其中,某商業(yè)公司InCloud OpenStack私有云單集群建設(shè)規(guī)模超過1000臺服務(wù)器,位列全球TOP5,借助先進的數(shù)據(jù)中心架構(gòu),核心業(yè)務(wù)實現(xiàn)了彈性計算資源及穩(wěn)定的平臺,監(jiān)控模塊亦滿足其對數(shù)據(jù)實時性、高并發(fā)的監(jiān)控需求,保證了服務(wù)的高可用、高性能、可擴展,有效提升數(shù)據(jù)中心運維保障效率。
電子發(fā)燒友App


















評論