91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何理解企業(yè)的SRE運(yùn)維體系?

如意 ? 來源:Dockone.io ? 作者:BGBiao ? 2020-08-27 11:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

SRE運(yùn)維體系的構(gòu)建和工作職責(zé)劃分。

可觀測性系統(tǒng)

在任何有一定規(guī)模的企業(yè)內(nèi)部,一旦推行起來整個(gè)SRE的運(yùn)維模式,那么對(duì)于可觀測性系統(tǒng)的建設(shè)將變得尤為重要,而在整個(gè)可觀測性系統(tǒng)中,通常我們會(huì)分為如下三個(gè)方面:

指標(biāo)監(jiān)控:即各種指標(biāo)監(jiān)控,比如基礎(chǔ)資源指標(biāo),服務(wù)性能指標(biāo),業(yè)務(wù)的調(diào)用指標(biāo)。

日志:各種設(shè)備以及服務(wù)的運(yùn)行日志監(jiān)控。

調(diào)用鏈:業(yè)務(wù)層面的調(diào)用鏈分析,通常在分布式系統(tǒng)中幫助運(yùn)營、開發(fā)以及運(yùn)維人員快速識(shí)別整體調(diào)用的瓶頸點(diǎn)

一整套的可觀測系統(tǒng),它能確保你洞察系統(tǒng),跟蹤系統(tǒng)的健康狀態(tài)、可用性以及系統(tǒng)內(nèi)部發(fā)生的事情。

對(duì)于整個(gè)可觀測系統(tǒng)的建設(shè),需要注意如下兩點(diǎn):

確定質(zhì)量標(biāo)準(zhǔn)是什么,并確保系統(tǒng)持續(xù)逼近或保持在質(zhì)量標(biāo)準(zhǔn)極限范圍內(nèi)

系統(tǒng)地關(guān)注這項(xiàng)工作—而不應(yīng)該只是隨機(jī)地查看一下系統(tǒng)

在整個(gè)企業(yè)級(jí)可觀測系統(tǒng)中,我認(rèn)為至少應(yīng)該包括如下幾個(gè)特征:

完備指標(biāo)采集:可以對(duì)接企業(yè)內(nèi)大部分的設(shè)備與技術(shù)棧相應(yīng)的監(jiān)控指標(biāo);同時(shí),支持常見設(shè)備的監(jiān)控指標(biāo)體系,可以快速接入監(jiān)控設(shè)備和指標(biāo),避免所有設(shè)備監(jiān)控都是從頭構(gòu)建;對(duì)于日志數(shù)據(jù)的采集支持

海量設(shè)備支持:企業(yè)IT系統(tǒng)數(shù)量和規(guī)模越來越大,因此監(jiān)控系統(tǒng)比以前需要監(jiān)控海量設(shè)備監(jiān)控。

監(jiān)控?cái)?shù)據(jù)存儲(chǔ)和分析:監(jiān)控?cái)?shù)據(jù)是運(yùn)維分析、運(yùn)維自動(dòng)化和智能化的基礎(chǔ),因此海量監(jiān)控?cái)?shù)據(jù)存儲(chǔ)以及基于監(jiān)控?cái)?shù)據(jù)的可視化分析是一個(gè)監(jiān)控系統(tǒng)的基本能力。

可觀測系統(tǒng)是整個(gè)運(yùn)維體系的基礎(chǔ),它需要提供整個(gè)運(yùn)維體系的數(shù)據(jù)化支持。

因此,一個(gè)企業(yè)級(jí)的可觀測性系統(tǒng)應(yīng)該是平臺(tái)化的。一方面可以通過配置或者開發(fā)實(shí)現(xiàn)更多 運(yùn)維指標(biāo)的接入;另一方面,亦可對(duì)接更多的專業(yè)運(yùn)維工具,整合并打通多元的運(yùn)維數(shù)據(jù),為更多運(yùn)維場景提供數(shù)據(jù)服務(wù)。從整體上,可觀測性系統(tǒng)為企業(yè)運(yùn)維提供了一個(gè)數(shù)據(jù)基礎(chǔ),讓我們對(duì)事故響應(yīng)以及容量預(yù)測等方面更多使用數(shù)據(jù)而非憑借以往經(jīng)驗(yàn)和拍腦袋做出決策。

故障響應(yīng)

如果有什么東西出了故障,該如何提醒大家并做出回應(yīng)?工具可以幫助解決這個(gè)問題,國為它可以定義提醒人類的規(guī)則。

故障響應(yīng)是建立在使用可觀測性系統(tǒng)構(gòu)建的數(shù)據(jù)之上,并借助反饋循環(huán),來幫助我們加強(qiáng)對(duì)服務(wù)的監(jiān)控。

故障響應(yīng)通常包含如下幾個(gè)動(dòng)作:

關(guān)注:不論是主動(dòng)發(fā)現(xiàn)瓶頸點(diǎn)或異常點(diǎn),還是通過可觀測性系統(tǒng)被動(dòng)暴露瓶頸點(diǎn),我們都應(yīng)該進(jìn)行主動(dòng)關(guān)注

交流:及時(shí)將觀察到風(fēng)險(xiǎn)點(diǎn)通知到相關(guān)方,并告知影響面以及相關(guān)的補(bǔ)救措施

恢復(fù):三方達(dá)成一致后,根據(jù)補(bǔ)救措施進(jìn)行修復(fù)相關(guān)風(fēng)險(xiǎn)點(diǎn)和異常點(diǎn)

需要注意的是,如果在前期整個(gè)可觀測性系統(tǒng)能夠做好,通常故障應(yīng)當(dāng)始于一個(gè)簡單的告警信息或一個(gè)報(bào)障電話,因此,通常情況下,可觀測系統(tǒng)做的足夠好僅能起到追溯和排查的作用,但是無法起到及時(shí)發(fā)現(xiàn)的作用,此時(shí)就需要依賴于各個(gè)觀測數(shù)據(jù)進(jìn)行計(jì)算和評(píng)估告警,以及時(shí)將相關(guān)的告警通知到相關(guān)人,以暴露風(fēng)險(xiǎn)點(diǎn)。

告警只是整個(gè)故障響應(yīng)的第一個(gè)環(huán)節(jié),解決的是故障如何發(fā)現(xiàn)的問題,而大多數(shù)的故障響應(yīng)工作都是關(guān)于定義處理策略和提供培訓(xùn)的,以便人們?cè)谑盏骄瘓?bào)時(shí)知道該怎么做,通常這部分更多的是過去歷史經(jīng)驗(yàn)和運(yùn)維經(jīng)歷的總結(jié)和沉淀,包括經(jīng)驗(yàn)的一些抽象和工具化沉淀,以保證故障響應(yīng)的效率和普遍化(即不依賴人為經(jīng)驗(yàn))。

而對(duì)于整個(gè)告警系統(tǒng)來說,需要確保的是告警的有效性,否則,整個(gè)報(bào)警系統(tǒng)很有可能淪落為垃圾數(shù)據(jù)制造機(jī),告警有效性意味著需要滿足如下兩個(gè)需求:

告警及時(shí)性:系統(tǒng)有問題需要及時(shí)通過告警信息告知運(yùn)維處理人員及時(shí)處理告警;

告警準(zhǔn)確性:只要有告警信息系統(tǒng)必然出現(xiàn)問題(對(duì)于很多企業(yè)可能存在大量的無用告警,比如磁盤問題,mem等相關(guān)問題,當(dāng)然這里涉及到了自動(dòng)化、業(yè)務(wù)形態(tài)、告警閾值的問題);

在整個(gè)運(yùn)維過程中,我們經(jīng)常會(huì)發(fā)現(xiàn)有大量的無關(guān)緊要的告警信息,讓運(yùn)維人員的注意力迷失在告警海洋當(dāng)中,而通常非運(yùn)維領(lǐng)域的領(lǐng)導(dǎo)會(huì)關(guān)注整個(gè)告警的響應(yīng)程度,因此,抑制和消除無效的告警,讓運(yùn)維人員不被告警風(fēng)暴所吞沒,也是告警管理中重點(diǎn)建設(shè)的內(nèi)容。

通常情況,在我們的各個(gè)可觀測系統(tǒng)構(gòu)建完成后,可以通過整合到監(jiān)控平臺(tái)中的各種監(jiān)控?cái)?shù)據(jù),應(yīng)用趨勢(shì)預(yù)測、短周期檢測、間歇性恢復(fù)、基線判斷、重復(fù)壓縮等算法和手段實(shí)現(xiàn)告警壓縮收斂,強(qiáng)化告警的有效性。

同時(shí),面向一線的運(yùn)維人員,我們需要根據(jù)同一個(gè)系統(tǒng)或設(shè)備的多個(gè)監(jiān)控指標(biāo)進(jìn)行綜合性建模和分析,匯總成一個(gè)健康度的分值,給予一線運(yùn)維人員系統(tǒng)的基于健康度的系統(tǒng)分層評(píng)價(jià)體系,真實(shí)、直觀反映系統(tǒng)運(yùn)行狀態(tài),實(shí)現(xiàn)問題快速定界。

比如,通過基礎(chǔ)資源的多個(gè)指標(biāo)進(jìn)行綜合加權(quán)計(jì)算來整體評(píng)估該資源的利用率;通過一個(gè)應(yīng)用關(guān)聯(lián)的全部資源的資源利用率以及應(yīng)用的運(yùn)維架構(gòu)整體建模分析來計(jì)算一個(gè)分值來整體評(píng)估該應(yīng)用的健康程度。

這個(gè)過程如果做得成熟一些,可以根據(jù)內(nèi)部已有的解決方案和告警進(jìn)行閉環(huán)打通,一個(gè)簡單的場景就是,當(dāng)磁盤滿時(shí),告警會(huì)首先觸發(fā)一次標(biāo)準(zhǔn)化的磁盤巡檢,并進(jìn)行相關(guān)的可丟棄數(shù)據(jù)的刪除,如果依然無法解決該報(bào)警,下次可直接關(guān)聯(lián)到一線運(yùn)維進(jìn)行人工干預(yù),之后進(jìn)行標(biāo)準(zhǔn)化經(jīng)驗(yàn)總結(jié)。

故障復(fù)盤

故障復(fù)盤就是對(duì)于過去的一些服務(wù)異常和服務(wù)中斷情況進(jìn)行回顧和總結(jié),以確保相同問題下次不會(huì)再出現(xiàn)。為了讓大家團(tuán)結(jié)協(xié)作,我們希望建立一種無指責(zé)、透明的事后文化。個(gè)人不應(yīng)該害怕事故,而是確信如果事故發(fā)生,團(tuán)隊(duì)將會(huì)響應(yīng)和改進(jìn)系統(tǒng)。

備注: 其實(shí)在國內(nèi)的SRE文化中,一般只有對(duì)大型,對(duì)業(yè)務(wù)有重大影響的事故才會(huì)進(jìn)行復(fù)盤,但實(shí)際上如果在時(shí)間和經(jīng)歷允許的情況下,對(duì)于一般的普通事故也應(yīng)該在小范圍進(jìn)行復(fù)盤,正所謂大的故障都是從不斷的小問題一點(diǎn)一點(diǎn)積累的。另外,其實(shí)對(duì)于運(yùn)維相關(guān)的個(gè)人而言,我們也應(yīng)當(dāng)及時(shí)的進(jìn)行小故障復(fù)盤,以不斷加強(qiáng)個(gè)人的故障處理和修復(fù)能力。

我認(rèn)為SRE的一個(gè)關(guān)鍵共識(shí)正是承認(rèn)了系統(tǒng)的不完美性,追求永不停機(jī)的系統(tǒng)是不現(xiàn)實(shí)的?;诓煌昝老到y(tǒng),我們無可避免要面對(duì)和經(jīng)歷系統(tǒng)故障與失敗。

所以我們重要的并非找到為這個(gè)故障責(zé)任的這個(gè)人或者那個(gè)人,而是更應(yīng)該創(chuàng)根問底地復(fù)盤這個(gè)故障和失敗的根本原因是什么,以及如何避免再次出現(xiàn)相同的故障。系統(tǒng)可靠性是整個(gè)團(tuán)隊(duì)共同奮斗的方向,從失敗中快速恢復(fù)并吸取教訓(xùn),每個(gè)人放心地提出問題,應(yīng)對(duì)停機(jī),并努力改進(jìn)系統(tǒng)。

備注:通常很多企業(yè)內(nèi)部在故障復(fù)盤過程中,相關(guān)人員可能將故障和失敗的根因追溯 不經(jīng)意間 當(dāng)做了故障定責(zé)和一系列的懲罰措施,通過一些懲戒措施來強(qiáng)行約定故障的發(fā)生,這種方式往往是非常不可取的,試想每個(gè)人都不想出現(xiàn)事故,要么是認(rèn)知之外,要么是規(guī)則缺陷,永遠(yuǎn)沒有一個(gè)人明知會(huì)有故障而偏偏去制造故障的。

需要牢記的是:故障是我們可以從中學(xué)習(xí)的東西,而不是讓人害怕和羞恥的事情!

在日常運(yùn)維過程中,出現(xiàn)故障等事故對(duì)于我們而言其實(shí)是一個(gè)很好的復(fù)盤學(xué)習(xí)機(jī)會(huì)。通過歷史監(jiān)控?cái)?shù)據(jù),分析事故其中的根本原因,制定后續(xù)應(yīng)對(duì)策略,并且通過運(yùn)維平臺(tái)將這些應(yīng)對(duì)策略編輯成標(biāo)準(zhǔn)化、可重用、自動(dòng)化的運(yùn)維應(yīng)用場景,為后續(xù)相同問題的處理提供標(biāo)準(zhǔn)且快捷的解決方案。這正是事后回顧這個(gè)過程最真實(shí)的價(jià)值體現(xiàn)。

測試與發(fā)布

測試與發(fā)布對(duì)于整個(gè)穩(wěn)定性和可靠性的主要出于一個(gè)預(yù)防的作用,預(yù)防是指嘗試限制發(fā)生的事故數(shù)量,并確保在發(fā)布新代碼時(shí)基礎(chǔ)架構(gòu)和服務(wù)能夠保持穩(wěn)定。

作為一個(gè)長期從事運(yùn)維工作的人,可能內(nèi)心中最為恐懼的莫過于新應(yīng)用版本發(fā)布。因?yàn)槌擞布途W(wǎng)絡(luò)設(shè)備損壞這個(gè)屬于天災(zāi)級(jí)別的概率事件外,新應(yīng)用版本發(fā)布的第二天通常是停機(jī)與事故的高危期。所以,對(duì)于一些量級(jí)較大的產(chǎn)品通常會(huì)在節(jié)假日以及重要活動(dòng)前夕進(jìn)行封網(wǎng)操作,以避免新版本上線而導(dǎo)致的業(yè)務(wù)bug出現(xiàn)。

而測試是在成本和風(fēng)險(xiǎn)之間找到適當(dāng)?shù)钠胶饣顒?dòng)。如果過于冒險(xiǎn),你們可能就會(huì)疲于應(yīng)付系統(tǒng)失敗;反過來說,如果你太保守,你就不能足夠快地發(fā)布新東西,讓企業(yè)在市場上生存下來。

在錯(cuò)誤預(yù)算比較多(即在一段時(shí)間內(nèi)故障導(dǎo)致系統(tǒng)停機(jī)時(shí)長較少)的情況下,可以適當(dāng)減少測試資源并放寬系統(tǒng)上線的測試和條件,讓業(yè)務(wù)可以有更多的功能上線,以保持業(yè)務(wù)的敏態(tài);在錯(cuò)誤預(yù)算比較少(即在一段時(shí)間內(nèi)故障導(dǎo)致系統(tǒng)停機(jī)時(shí)長較多)的情況下,則要增加測試資源并收緊系統(tǒng)上線的測試,讓系統(tǒng)的潛在風(fēng)險(xiǎn)得到更多有效的釋放,避免系統(tǒng)停機(jī)保持系統(tǒng)的穩(wěn)態(tài)。這種敏態(tài)與穩(wěn)態(tài)之間的平衡,需要整個(gè)運(yùn)維與開發(fā)團(tuán)隊(duì)來共同承擔(dān)。

除了測試外,應(yīng)用發(fā)布也是一項(xiàng)運(yùn)維團(tuán)隊(duì)通常要承擔(dān)的責(zé)任。SRE的一個(gè)原則是將一切可以重復(fù)性勞動(dòng)代碼化和工具化;此外,應(yīng)用發(fā)布的復(fù)雜程度往往與系統(tǒng)的復(fù)雜程度成正比。因此在應(yīng)用系統(tǒng)上規(guī)模企業(yè),往往已經(jīng)著手基于自動(dòng)化框架構(gòu)建自動(dòng)化的應(yīng)用發(fā)布過程。

通過自動(dòng)化發(fā)布工具,我們可以構(gòu)建流水線實(shí)現(xiàn)部署的過程中所有的操作(如編譯打包、測試發(fā)布、生產(chǎn)準(zhǔn)備、告警屏蔽、服務(wù)停止、數(shù)據(jù)庫執(zhí)行、應(yīng)用部署、服務(wù)重啟等)全部自動(dòng)化。

容量規(guī)劃

容量規(guī)劃是關(guān)于預(yù)測未來和發(fā)現(xiàn)系統(tǒng)極限的,容量規(guī)劃也是為了確保系統(tǒng)可以隨著時(shí)間的推移得到完善和增強(qiáng)。

規(guī)劃的主要目標(biāo)是管理風(fēng)險(xiǎn)和期望,對(duì)于容量規(guī)劃,涉及到將容量擴(kuò)展到整個(gè)業(yè)務(wù);所關(guān)注的期望是人們?cè)诳吹綐I(yè)務(wù)增長時(shí)期望服務(wù)如何響應(yīng)。風(fēng)險(xiǎn)是在額外的基礎(chǔ)設(shè)施上花費(fèi)時(shí)間和金錢來處理這個(gè)問題。

容量規(guī)劃首先是對(duì)未來預(yù)測性的分析與判斷,其預(yù)測的基礎(chǔ)正是海量的運(yùn)維數(shù)據(jù)。因此,容量規(guī)劃除了有相應(yīng)的架構(gòu)和規(guī)劃團(tuán)隊(duì)外,一個(gè)全面的運(yùn)維數(shù)據(jù)中心是實(shí)現(xiàn)系統(tǒng)容量規(guī)劃的必須設(shè)施。

容量趨勢(shì)預(yù)警和分析將綜合地從各種運(yùn)維監(jiān)控、流程管理等數(shù)據(jù)源中收集、整理、清洗并結(jié)構(gòu)化地存儲(chǔ)各種運(yùn)維數(shù)據(jù),將這些來自于各種工具的運(yùn)維數(shù)據(jù)打通融合并且構(gòu)建各種數(shù)據(jù)主題。

應(yīng)用這些數(shù)據(jù)主題的數(shù)據(jù)用于幫助運(yùn)維人員對(duì)問題進(jìn)行評(píng)估,包括:

當(dāng)前的容量是多少

何時(shí)達(dá)到容量極限

應(yīng)該如何更改容量

執(zhí)行容量規(guī)劃

運(yùn)維平臺(tái)除了可以提供必要的數(shù)據(jù)支持外,還需要提供必要的數(shù)據(jù)可視化支持能力。運(yùn)維數(shù)據(jù)可視化提供了一些必要的能力保障運(yùn)維人員可以更好地利用其中的運(yùn)維數(shù)據(jù)評(píng)估容量。

首先,運(yùn)維平臺(tái)需要有極強(qiáng)的數(shù)據(jù)檢索能力。運(yùn)維平臺(tái)存儲(chǔ)著海量的運(yùn)維數(shù)據(jù),運(yùn)維人員為了嘗試建立和驗(yàn)證一個(gè)探索性場景的時(shí)候,往往多次反復(fù)檢索和查詢特定數(shù)據(jù)。如果運(yùn)維數(shù)據(jù)分析平臺(tái)的數(shù)據(jù)查詢很慢或者查詢角度很少的情況下,運(yùn)維人員建立場景的時(shí)間就會(huì)拖得很長甚至進(jìn)行不下去。因此,運(yùn)維人員可通過平臺(tái)可以實(shí)現(xiàn)關(guān)鍵字、統(tǒng)計(jì)函數(shù)、單條件、多條件、模糊多維度查找功能,以及實(shí)現(xiàn)海量數(shù)據(jù)秒級(jí)查詢,才能更有效幫助運(yùn)維人員更便捷分析數(shù)據(jù)。

其二,平臺(tái)需要強(qiáng)大的數(shù)據(jù)可視化能力。人們常說“千言萬語不及一圖”,運(yùn)維人員經(jīng)常會(huì)通過各系統(tǒng)的運(yùn)維數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析并生成各類實(shí)時(shí)報(bào)表,對(duì)各類運(yùn)維數(shù)據(jù)(如應(yīng)用日志、交易日志、系統(tǒng)日志)進(jìn)行多維度、多角度深入分析、預(yù)測及可視化展現(xiàn),將他們分析的預(yù)測結(jié)果和經(jīng)驗(yàn)向他人表達(dá)和推廣。

自動(dòng)化工具開發(fā)

SRE不僅涉及運(yùn)營,還涉及軟件開發(fā),當(dāng)然這部分指的是和運(yùn)維以及SRE領(lǐng)域相關(guān)的工具和平臺(tái)開發(fā)。在Google的SRE體系中,SRE工程師將花費(fèi)大約一半的時(shí)間來開發(fā)新的工具和服務(wù),這些工具的一部分用于自動(dòng)化一些手動(dòng)任務(wù),而其他部分用于來不斷填補(bǔ)和修復(fù)整個(gè)SRE體系內(nèi)部的其他系統(tǒng)。

通過編寫代碼把自己和其他人從重復(fù)的工作中解放出來,如果我們不需要人類來完成任務(wù),那么就編寫代碼,這樣人類就不需要參與其中了。

SRE從內(nèi)心上鄙視重復(fù)性的工作,將從原有的人工加被動(dòng)響應(yīng),轉(zhuǎn)變?yōu)楦咝?、更為自?dòng)化的運(yùn)維體系。

自動(dòng)化運(yùn)維框架:

如何理解企業(yè)的SRE運(yùn)維體系?

自動(dòng)化運(yùn)維工具的優(yōu)勢(shì)和必要性:

提高效率:由程序自動(dòng)化操作,有效地降低運(yùn)維人力資源的投入,也讓運(yùn)維人員的精力得以釋放并投向更為重要的領(lǐng)域。

操作的標(biāo)準(zhǔn)化:將原來許多復(fù)雜、易錯(cuò)的手工操作實(shí)現(xiàn)統(tǒng)一運(yùn)維操作入口,實(shí)現(xiàn)運(yùn)維操作白屏化,提升運(yùn)維操作的可管理性;同時(shí),減少由于運(yùn)維人員情緒帶來手工誤操作,避免“從刪庫到跑路”這樣的悲劇的發(fā)生。

運(yùn)維經(jīng)驗(yàn)?zāi)芰Φ膫鞒校哼\(yùn)維自動(dòng)化工具將原來許多運(yùn)維團(tuán)隊(duì)積累的經(jīng)驗(yàn)以代碼方式總結(jié)為各種運(yùn)維工具,實(shí)現(xiàn)自動(dòng)化和白屏化的運(yùn)維操作。運(yùn)維團(tuán)隊(duì)的后來者,可以有效地繼承、重復(fù)使用并優(yōu)化它們。這種代碼化的工作傳承,將個(gè)人能力轉(zhuǎn)變?yōu)閳F(tuán)隊(duì)能力,并減少人員流動(dòng)帶來對(duì)工作的影響。

構(gòu)建自動(dòng)化運(yùn)維體系就必須以運(yùn)維場景為基礎(chǔ),這些運(yùn)維場景是在本企業(yè)內(nèi)反復(fù)迭代和打造,是企業(yè)中最常用的運(yùn)維場景。

比如常見的運(yùn)維場景:軟件安裝部署、應(yīng)用發(fā)布交付、資產(chǎn)管理、告警自動(dòng)處理、故障分析、資源申請(qǐng)、自動(dòng)化巡檢等等。因此,整個(gè)自動(dòng)化運(yùn)維體系建設(shè)時(shí)也應(yīng)支持多種不同類型的自動(dòng)化作業(yè)配置能力,通過簡單的腳本開發(fā)、場景配置和可視化定制流程實(shí)現(xiàn)更多運(yùn)維場景的實(shí)現(xiàn)。

用戶體驗(yàn)

用戶體驗(yàn)這一層要說的是,作為SRE來講,從用戶的角度來保證業(yè)務(wù)的穩(wěn)定性和可用性才是最終目標(biāo)。這個(gè)才傳統(tǒng)意義上的運(yùn)維人員是不會(huì)關(guān)注這一點(diǎn)的,因?yàn)榇蠹彝ǔV粫?huì)考慮到我底層運(yùn)維的系統(tǒng)或底層資源是否穩(wěn)定,但實(shí)際上整個(gè)業(yè)務(wù)的穩(wěn)定才是SRE需要關(guān)心的問題,而業(yè)務(wù)的穩(wěn)定性和可用性通常需要站在用戶的角度來模擬和衡量整體的可用性和可靠性。

在前面提到的所有SRE相關(guān)的工作范疇,無論是監(jiān)控、事故響應(yīng)、回顧、測試與發(fā)布、容量規(guī)劃以及構(gòu)建自動(dòng)化工具,無非都是為了提供更好的系統(tǒng)用戶業(yè)務(wù)體驗(yàn)而服務(wù)的。因此,我們?cè)谶\(yùn)維的過程中無不需要注意關(guān)注系統(tǒng)的用戶體驗(yàn)。

而在實(shí)際運(yùn)維工作中,我們往往可以通過應(yīng)用日志、監(jiān)控?cái)?shù)據(jù)、業(yè)務(wù)拔測等業(yè)務(wù)相關(guān)的用戶體驗(yàn)信息。在運(yùn)維數(shù)據(jù)平臺(tái)中,通過這些用戶體驗(yàn)監(jiān)測數(shù)據(jù)之間的關(guān)聯(lián)和串聯(lián),重現(xiàn)用戶的最終業(yè)務(wù)調(diào)用鏈路以及各應(yīng)用環(huán)節(jié)對(duì)性能數(shù)據(jù)的關(guān)系。最終形成從業(yè)務(wù)用戶體驗(yàn)數(shù)據(jù)入手,逐步實(shí)現(xiàn)系統(tǒng)運(yùn)行狀態(tài)數(shù)據(jù)、設(shè)備運(yùn)行狀態(tài)數(shù)據(jù)鏈路的打通,讓運(yùn)維體系實(shí)現(xiàn)以最終用戶體驗(yàn)為中心的目標(biāo)。

這些用戶體驗(yàn)的信息,對(duì)于運(yùn)維團(tuán)隊(duì)掌握客戶整體的用戶體驗(yàn)情況、系統(tǒng)可用性的監(jiān)測以及系統(tǒng)針對(duì)性的優(yōu)化提供著無可替代的作用。

其實(shí),SRE運(yùn)維體系更為強(qiáng)調(diào)以用戶的體驗(yàn)為核心,以自動(dòng)化和運(yùn)維數(shù)據(jù)為手段,實(shí)現(xiàn)應(yīng)用業(yè)務(wù)連續(xù)性保障,從這個(gè)點(diǎn)出發(fā),我們會(huì)發(fā)現(xiàn)和以往的傳統(tǒng)運(yùn)維還是有很大的區(qū)別的,我們不再僅僅是單純的安裝和部署工程師,我們需要通過一系列的技術(shù)手段來不斷保障上層業(yè)務(wù)的穩(wěn)定性和可靠性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 自動(dòng)化
    +關(guān)注

    關(guān)注

    31

    文章

    5958

    瀏覽量

    90427
  • 企業(yè)
    +關(guān)注

    關(guān)注

    0

    文章

    222

    瀏覽量

    23494
  • 運(yùn)維
    +關(guān)注

    關(guān)注

    1

    文章

    285

    瀏覽量

    8683
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    OpenClaw進(jìn)階配置與自動(dòng)化運(yùn)實(shí)戰(zhàn)手冊(cè)

    本文檔面向已將 OpenClaw 納入生產(chǎn)運(yùn)體系的工程師,從運(yùn)視角系統(tǒng)闡述配置管理、定時(shí)任務(wù)、Gateway
    的頭像 發(fā)表于 03-24 16:44 ?46次閱讀

    AIOps 智能化運(yùn):讓 IT 運(yùn)從 “被動(dòng)救火” 到 “主動(dòng)防御”

    前言在數(shù)字化時(shí)代,企業(yè)的IT系統(tǒng)就像城市的交通網(wǎng)絡(luò),支撐著業(yè)務(wù)的每一次運(yùn)轉(zhuǎn)。但隨著服務(wù)器、云集群、邊緣設(shè)備的數(shù)量激增,傳統(tǒng)運(yùn)靠人工盯著監(jiān)控、排查日志的模式,早已跟不上系統(tǒng)的復(fù)雜程度——告警刷屏
    的頭像 發(fā)表于 02-12 14:09 ?1678次閱讀
    AIOps 智能化<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>:讓 IT <b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>從 “被動(dòng)救火” 到 “主動(dòng)防御”

    設(shè)備運(yùn)管理平臺(tái)讓工廠設(shè)備高效運(yùn)轉(zhuǎn)

    PLC、數(shù)控機(jī)床、工業(yè)機(jī)器人等設(shè)備作為生產(chǎn)的核心引擎,其穩(wěn)定運(yùn)行直接決定企業(yè)效益,但傳統(tǒng)運(yùn)模式下,故障突發(fā)導(dǎo)致的非計(jì)劃停機(jī)、巡檢流于形式的隱患遺漏、備件管理混亂的維修延誤,讓企業(yè)陷入
    的頭像 發(fā)表于 01-06 14:02 ?206次閱讀
    設(shè)備<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>管理平臺(tái)讓工廠設(shè)備高效運(yùn)轉(zhuǎn)

    國際版工業(yè)網(wǎng)關(guān)助力企業(yè)實(shí)現(xiàn)全球化遠(yuǎn)程運(yùn)

    隨著全球化進(jìn)程的加速,越來越多的企業(yè)將生產(chǎn)基地與設(shè)備布局海外。然而,海外設(shè)備運(yùn)維面臨著網(wǎng)絡(luò)環(huán)境復(fù)雜、地域距離遙遠(yuǎn)、運(yùn)成本高昂等諸多挑戰(zhàn)。物通博聯(lián)精準(zhǔn)洞察
    的頭像 發(fā)表于 12-30 14:38 ?305次閱讀

    7×24小時(shí)AI運(yùn)服務(wù):以 “云-邊-云” 架構(gòu)重塑企業(yè) IT 運(yùn)范式

    中樞。系統(tǒng)深度整合行業(yè)多模態(tài)監(jiān)測技術(shù),通過7×24小時(shí)自動(dòng)化巡檢、動(dòng)態(tài)規(guī)則引擎與可視化看板,助力企業(yè)從傳統(tǒng)“人工救火式運(yùn)”升級(jí)為“AI驅(qū)動(dòng)的預(yù)測性運(yùn)
    的頭像 發(fā)表于 12-24 09:20 ?779次閱讀
    7×24小時(shí)AI<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>服務(wù):以 “云-邊-云” 架構(gòu)重塑<b class='flag-5'>企業(yè)</b> IT <b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>范式

    基于大模型衛(wèi)星載荷智能運(yùn)保障分系統(tǒng):功能特點(diǎn)與平臺(tái)架構(gòu)解析

    ? ? 大模型衛(wèi)星載荷智能運(yùn)保障分系統(tǒng) ? ?北京華盛恒輝大模型衛(wèi)星載荷智能運(yùn)保障分系統(tǒng)該系統(tǒng)依托大模型技術(shù)構(gòu)建智能化運(yùn)
    的頭像 發(fā)表于 12-18 16:17 ?312次閱讀

    光伏電站運(yùn)管理系統(tǒng)這種運(yùn)管理模式的應(yīng)用

    光伏電站運(yùn)管理系統(tǒng)針對(duì)不同光伏電站的運(yùn)模式、技術(shù)架構(gòu)和功能模塊有著不同的類別,其中各功能模塊通過數(shù)據(jù)交互與流程銜接實(shí)現(xiàn)協(xié)同運(yùn)作,來實(shí)現(xiàn)對(duì)光伏電站智能、高效的
    的頭像 發(fā)表于 11-18 15:40 ?427次閱讀
    光伏電站<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>管理系統(tǒng)這種<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>管理模式的應(yīng)用

    光伏電站智能運(yùn)平臺(tái)是如何解決傳統(tǒng)運(yùn)核心痛點(diǎn)的?

    通過建設(shè)光伏電站智能運(yùn)平臺(tái)實(shí)現(xiàn)智能化運(yùn)管理,是應(yīng)對(duì)傳統(tǒng)運(yùn)模式痛點(diǎn)、提升電站綜合效益的一種有
    的頭像 發(fā)表于 11-04 17:41 ?656次閱讀
    光伏電站智能<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>平臺(tái)是如何解決傳統(tǒng)<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>核心痛點(diǎn)的?

    AcrelCloud-1000 智慧電力運(yùn):不止守護(hù)電力安全,更助企業(yè)解鎖增長新路徑

    國電力運(yùn)市場研究與前景趨勢(shì)報(bào)告》分析,未來電力運(yùn)市場仍將保持增長態(tài)勢(shì),但隨著系統(tǒng)規(guī)模和復(fù)雜程度的增加,電力運(yùn)
    的頭像 發(fā)表于 10-31 16:05 ?680次閱讀
    AcrelCloud-1000 智慧電力<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>:不止守護(hù)電力安全,更助<b class='flag-5'>企業(yè)</b>解鎖增長新路徑

    SD-WAN如何幫助企業(yè)降低網(wǎng)絡(luò)運(yùn)成本?

    巨大的成本負(fù)擔(dān)。為了滿足不斷變化的業(yè)務(wù)需求和日益復(fù)雜的網(wǎng)絡(luò)環(huán)境,越來越多的企業(yè)開始選擇采用SD-WAN(軟件定義廣域網(wǎng))作為其網(wǎng)絡(luò)解決方案。SD-WAN的出現(xiàn)不僅改變了傳統(tǒng)網(wǎng)絡(luò)架構(gòu)的局限,還有效地降低了企業(yè)的網(wǎng)絡(luò)運(yùn)
    的頭像 發(fā)表于 10-24 18:24 ?331次閱讀

    包裝設(shè)備遠(yuǎn)程監(jiān)控智慧運(yùn)平臺(tái)方案

    孤島、運(yùn)響應(yīng)滯后等問題,傳統(tǒng)本地巡檢難控設(shè)備狀態(tài),故障處理周期長,構(gòu)建基于統(tǒng)一平臺(tái)的遠(yuǎn)程監(jiān)控與智慧運(yùn)體系勢(shì)在必行。 解決方案 數(shù)之能以設(shè)
    的頭像 發(fā)表于 09-18 10:28 ?519次閱讀
    包裝設(shè)備遠(yuǎn)程監(jiān)控智慧<b class='flag-5'>運(yùn)</b><b class='flag-5'>維</b>平臺(tái)方案

    企業(yè)能源管控聯(lián)網(wǎng)管理解決方案:為企業(yè)節(jié)能增效

    核心功能包括動(dòng)態(tài)調(diào)頻、水質(zhì)追溯、設(shè)備預(yù)測維護(hù)等,助力企業(yè)降低40%運(yùn)成本,實(shí)現(xiàn)從經(jīng)驗(yàn)管理到數(shù)據(jù)驅(qū)動(dòng)的轉(zhuǎn)型,推動(dòng)"雙碳"目標(biāo)下的智慧能源體系建設(shè)。
    的頭像 發(fā)表于 09-15 15:23 ?481次閱讀

    Ceph集群部署與運(yùn)完全指南

    作為一名資深運(yùn)工程師,我見證了太多企業(yè)在存儲(chǔ)架構(gòu)選型上的糾結(jié)。傳統(tǒng)的NAS/SAN方案成本高昂,擴(kuò)展性差;而云存儲(chǔ)又面臨廠商鎖定的風(fēng)險(xiǎn)。直到我深入研究Ceph后,才真正理解什么叫"軟
    的頭像 發(fā)表于 08-29 17:18 ?1378次閱讀

    AI集成運(yùn)管理平臺(tái)的架構(gòu)與核心構(gòu)成解析

    在數(shù)字化轉(zhuǎn)型浪潮下,企業(yè)IT基礎(chǔ)設(shè)施規(guī)模不斷擴(kuò)大,系統(tǒng)架構(gòu)日益復(fù)雜,傳統(tǒng)依賴人工的運(yùn)模式面臨著響應(yīng)速度慢、故障定位難、運(yùn)成本高等諸多挑戰(zhàn)
    的頭像 發(fā)表于 06-12 17:04 ?782次閱讀

    工業(yè)設(shè)備遠(yuǎn)程監(jiān)控運(yùn)管理系統(tǒng)方案

    在工業(yè)4.0和智能制造的浪潮推動(dòng)下,工業(yè)設(shè)備的智能化管理成為企業(yè)提升競爭力的關(guān)鍵。然而,傳統(tǒng)工業(yè)設(shè)備運(yùn)管理模式存在響應(yīng)慢、成本高、數(shù)據(jù)利用率低等問題,難以滿足現(xiàn)代工業(yè)高效、穩(wěn)定生產(chǎn)的需求。為此
    的頭像 發(fā)表于 06-07 09:24 ?984次閱讀