91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

分布式系統(tǒng)中保證高可用性的常用經(jīng)驗

華為開發(fā)者社區(qū) ? 來源:華為云社區(qū) ? 作者:aoho ? 2021-02-05 10:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

系統(tǒng)可用性指標

系統(tǒng)可用性指標簡單來講就是系統(tǒng)可用時間與總運行時間之比

Availability=MTTF/(MTTF+MTTRMTTF)

MTTF 是 Mean Time To Failure,指平均故障前的時間,即系統(tǒng)平均能夠正常運行多長時間才發(fā)生一次故障。系統(tǒng)的可靠性越高,MTTF 越長(簡單理解MTTF 就是指系統(tǒng)正常運行的時間)。MTTR 是 Mean Time To Recovery, 平均修復(fù)時間,即從故障出現(xiàn)到故障修復(fù)的這段時間,也就是系統(tǒng)不可用的時間,這段時間越短越好。系統(tǒng)可用性指標可以用通過下表的999標準衡量,現(xiàn)在普遍要求至少2個9,最好4個9以上:

6333bbb2-5f86-11eb-8b86-12bb97331649.png

故障不可避免

高可用性是指系統(tǒng)提供的服務(wù)要始終可用,然而故障不可避免,特別是在分布式系統(tǒng),面對不可控的用戶流量和機房環(huán)境,系統(tǒng)故障將會顯得更加復(fù)雜和不可預(yù)測。在大規(guī)模的分布式系統(tǒng)中,各個模塊之間存在錯綜復(fù)雜的依賴,任一一個環(huán)節(jié)出現(xiàn)問題,都有可能導(dǎo)致雪崩式、多米諾骨牌式的故障,甚者可以斷言出現(xiàn)故障成了常態(tài)。

63c257e6-5f86-11eb-8b86-12bb97331649.png

如上圖的分布式系統(tǒng)中,用戶請求系統(tǒng)中的某個服務(wù)接口,請求需要經(jīng)過長長的調(diào)用鏈才能處理返回。我們起碼要保證網(wǎng)絡(luò)連接正常,服務(wù)網(wǎng)關(guān)正常、前端服務(wù)正常、后臺服務(wù)正常、數(shù)據(jù)庫正常,請求才能被正常處理,如果調(diào)用鏈中的任一環(huán)節(jié)出現(xiàn)問題,都會直接反饋到用戶體驗上。

系統(tǒng)出現(xiàn)故障的原因多種多樣,主要有以下這些:

網(wǎng)絡(luò)問題,網(wǎng)絡(luò)連接故障,網(wǎng)絡(luò)帶寬出現(xiàn)超時擁塞等;

性能問題,數(shù)據(jù)庫慢查詢、Java Full GC、硬盤 IO 過大、CPU 過高、內(nèi)存不足等

安全問題,被網(wǎng)絡(luò)攻擊,如 DDoS 等、異??蛻舳苏埱?,如爬蟲等。

運維問題,需求變更頻繁不可控,架構(gòu)也在不斷地被調(diào)整,監(jiān)控問題等;

管理問題,沒有梳理出關(guān)鍵服務(wù)以及服務(wù)的依賴關(guān)系,運行信息沒有和控制系統(tǒng)同步;

硬件問題,硬盤損壞、網(wǎng)卡出問題、交換機出問題、機房掉電、挖掘機問題(前一陣子機房電纜就經(jīng)常被挖斷)等;

面對如此多的天災(zāi)人禍,可控和不可控的故障因素,似乎系統(tǒng)的高可用性變成不可能完成的任務(wù),但是在日常開發(fā)運維中,我們可以采用一些有效的設(shè)計、實現(xiàn)和運維手段來提高系統(tǒng)的高可用性,盡量交付一個在任何時候都基本可用的系統(tǒng)。

冗余設(shè)計

分布式系統(tǒng)中單點故障不可取的,而降低單點故障的不二法門就是冗余設(shè)計,通過多點部署的方式,并且最好是部署在不同的物理位置,避免單機房中多點同時失敗。冗余設(shè)計不僅可以提高服務(wù)的吞吐量,還可以在出現(xiàn)災(zāi)難時快速恢復(fù)。目前常見的冗余設(shè)計有主從設(shè)計和對等治理設(shè)計,主從設(shè)計又可以細分為一主多從、多主多從。

冗余設(shè)計中一個不可避免的問題是考慮分布式系統(tǒng)中數(shù)據(jù)的一致性,多個節(jié)點中冗余的數(shù)據(jù)追求強一致性還是最終一致性。即使節(jié)點提供無狀態(tài)服務(wù),也需要借助外部服務(wù),比如數(shù)據(jù)庫、分布式緩存等維護數(shù)據(jù)狀態(tài)。根據(jù)分布式系統(tǒng)下節(jié)點數(shù)據(jù)同步的基本原理CAP(Consistency (一致性)、Availablity (可用性)、Partition tolerance (分區(qū)容忍性)三個指標不可同時滿足),數(shù)據(jù)強一致性的系統(tǒng)無法保證高可用性,最典型的例子就是 Zookeeper。

Zookeeper 采用主從設(shè)計,服務(wù)集群由 Leader、Follower 和 Observer 三種角色組成,它們的職責(zé)如下:

Leader: Zookeeper 集群使用 ZAB 協(xié)議通過 Leader 選舉從集群中選定一個節(jié)點作為 Leader。Leader 響應(yīng)客戶端的讀寫請求;

Follower:只提供數(shù)據(jù)的讀服務(wù),會將來自客戶端的寫請求轉(zhuǎn)發(fā)到 Leader 中。在 Leader 選舉的過程中參與投票,并與 Leader 維持數(shù)據(jù)同步;

Observer:與 Folllower 的功能相同,但不參與 Leader 選舉和寫過程的“過半寫成功”策略,單純?yōu)榱颂岣呒旱淖x能力。

在 Zookeeper 集群中,由于只有 Leader 角色的節(jié)點具備寫數(shù)據(jù)的能力,當 Leader 節(jié)點宕機時,在新的 Leader 節(jié)點沒有被選舉出來之前,集群的寫能力都是不可用的。雖然 Zookeeper 保證了集群數(shù)據(jù)的強一致性,但是放棄了集群的高可用性。 對等治理設(shè)計中比較優(yōu)秀的業(yè)內(nèi)體現(xiàn)為 Netiflx 開源的 Eureka 服務(wù)注冊和發(fā)現(xiàn)組件。Eureka 集群由 Eureka Client 和 Eureka Server 兩種角色組成,其中 Eureka Client 是指服務(wù)實例使用的服務(wù)注冊和發(fā)現(xiàn)的客戶端,用于注冊和查詢服務(wù)實例信息;Eureka Server 作為服務(wù)注冊中心,存儲有各服務(wù)的實例信息列表,采用多實例的方式部署保證高可用性。 每一個 Eureka Server 都是對等的數(shù)據(jù)節(jié)點,Eureka Client 可以向任意的 Eureka Server 發(fā)起服務(wù)注冊請求和服務(wù)發(fā)現(xiàn)請求。Eureka Server 之間的數(shù)據(jù)通過異步 HTTP 的方式同步,由于網(wǎng)絡(luò)的不可靠性,不同 Eureka Server 中的服務(wù)實例數(shù)據(jù)不能保證在任意時間節(jié)點都相等,只能保證在 SLA 承諾時間內(nèi)達到數(shù)據(jù)的最終一致性。Eureka 點對點對等的設(shè)計保證了服務(wù)注冊與發(fā)現(xiàn)中心的高可用性,但是犧牲了數(shù)據(jù)的強一致性,降級為數(shù)據(jù)的最終一致性。

熔斷設(shè)計

在分布式系統(tǒng)中,一次完整的請求可能需要經(jīng)過多個服務(wù)模塊的通力合作,請求在多個服務(wù)中傳遞,服務(wù)對服務(wù)的調(diào)用會產(chǎn)生新的請求,這些請求共同組成了這次請求的調(diào)用鏈。當調(diào)用鏈中的某個環(huán)節(jié),特別是下游服務(wù)不可用時,將會導(dǎo)致上游服務(wù)調(diào)用方不可用,最終將這種不可用的影響擴大到整個系統(tǒng),導(dǎo)致整個分布式系統(tǒng)的不可用,引發(fā)服務(wù)雪崩現(xiàn)象。

為了避免這種情況,在下游服務(wù)不可用時,保護上游服務(wù)的可用性顯得極其重要。對此,我們可以參考電路系統(tǒng)的斷路器機制,在必要的時候壯士斷腕,當下游服務(wù)因為過載或者故障不能用時,及時“熔斷”服務(wù)調(diào)用方和服務(wù)提供方的調(diào)用鏈,保護服務(wù)調(diào)用方資源,防止服務(wù)雪崩現(xiàn)象的出現(xiàn)。

斷路器的基本設(shè)計圖如下,由關(guān)閉、打開、半開三種狀態(tài)組成:

64540902-5f86-11eb-8b86-12bb97331649.png

關(guān)閉(Closed)狀態(tài):

此時服務(wù)調(diào)用方可以調(diào)用服務(wù)提供方。斷路器中使用失敗計數(shù)器周期性統(tǒng)計請求失敗次數(shù)和請求總次數(shù)的比例,如果最近失敗頻率超過了周期時間內(nèi)允許失敗的閾值,則切換到打開(Open)狀態(tài)。在關(guān)閉狀態(tài)下,失敗計數(shù)器基于時間周期運作,會在每個統(tǒng)計周期開始前自動重置,防止某次偶然錯誤導(dǎo)致斷路器進入打開狀態(tài)。

打開(Open)狀態(tài):

在該狀態(tài)下,對應(yīng)用程序的請求會立即返回錯誤響應(yīng)或者執(zhí)行預(yù)設(shè)的失敗降級邏輯,而不調(diào)用服務(wù)提供方。斷路器進入打開狀態(tài)后會啟動超時計時器,在計時器到達后,斷路器進入半開狀態(tài)。

半開(Half-Open)狀態(tài):

允許應(yīng)用程序一定數(shù)量的請求去調(diào)用服務(wù)。如果這些請求對服務(wù)的調(diào)用成功,那么可以認為之前導(dǎo)致調(diào)用失敗的錯誤已經(jīng)修正,此時斷路器切換到關(guān)閉狀態(tài),同時將失敗計數(shù)器重置。如果這一定數(shù)量的請求存在調(diào)用失敗的情況,則認為導(dǎo)致之前調(diào)用失敗的問題仍然存在,斷路器切回到打開狀態(tài),并重置超時計時器來給系統(tǒng)一定的時間來修正錯誤。半開狀態(tài)能夠有效防止正在恢復(fù)中的服務(wù)被突然而來的大量請求再次打垮。

使用斷路器設(shè)計模式,能夠有效地保護服務(wù)調(diào)用方的穩(wěn)定性,它能夠避免服務(wù)調(diào)用者頻繁調(diào)用可能失敗的服務(wù)提供者,防止服務(wù)調(diào)用者浪費 CPU 周期、線程和 IO 資源等,提高服務(wù)整體的可用性。

小結(jié)

本文主要介紹了幾種高可用的設(shè)計,除了上面介紹的方式之外,還有限流設(shè)計和一些其他設(shè)計與方案,如降級設(shè)計、無狀態(tài)設(shè)計、冪等性設(shè)計、重試設(shè)計、接口緩存、實時監(jiān)控和度量以及常規(guī)劃化維護。

原文標題:進來抄作業(yè)吧!分布式系統(tǒng)中保證高可用性的常用經(jīng)驗

文章出處:【微信公眾號:華為開發(fā)者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:進來抄作業(yè)吧!分布式系統(tǒng)中保證高可用性的常用經(jīng)驗

文章出處:【微信號:Huawei_Developer,微信公眾號:華為開發(fā)者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Acrel-1000DP分布式光伏監(jiān)控系統(tǒng)成功落地奉賢平食品 4.4MW 分布式光伏項目

    一、概述 上海華電奉賢平食品 4408.085kwp 分布式光伏發(fā)電項目(以下簡稱“本項目”)是響應(yīng)國家“優(yōu)化能源結(jié)構(gòu),提供更加清潔、可靠的能源”的號召,投資建設(shè)的分布式光伏發(fā)電應(yīng)用示范項目。上海
    的頭像 發(fā)表于 11-12 10:17 ?448次閱讀

    如何解決分布式光伏計量難題?

    %。同時,可提升發(fā)電效率、降低發(fā)電成本的新型技術(shù)逐步落地,推動光伏系統(tǒng)向更高效、更緊湊的方向發(fā)展,進而對電表在精度、數(shù)據(jù)更新速度及適配方面也提出了更高要求。 分布式光伏遇計量難題 分布式
    的頭像 發(fā)表于 11-07 14:55 ?307次閱讀
    如何解決<b class='flag-5'>分布式</b>光伏計量難題?

    【節(jié)能學(xué)院】Acrel-1000DP分布式光伏監(jiān)控系統(tǒng)在奉賢平食品 4.4MW 分布式光伏中應(yīng)用

    摘要:在“雙碳”和新型電力系統(tǒng)建設(shè)背景下,分布式光伏接入比例不斷提高,對配電網(wǎng)電壓、調(diào)度運行及調(diào)峰等環(huán)節(jié)造成強烈沖擊。本文設(shè)計包含平臺層、設(shè)備層二層架構(gòu)體系的分布式光伏管控平臺,以及小容量工商業(yè)
    的頭像 發(fā)表于 08-23 08:04 ?3492次閱讀
    【節(jié)能學(xué)院】Acrel-1000DP<b class='flag-5'>分布式</b>光伏監(jiān)控<b class='flag-5'>系統(tǒng)</b>在奉賢平<b class='flag-5'>高</b>食品 4.4MW <b class='flag-5'>分布式</b>光伏中應(yīng)用

    分布式光伏發(fā)電監(jiān)測系統(tǒng)技術(shù)方案

    分布式光伏發(fā)電監(jiān)測系統(tǒng)技術(shù)方案 柏峰【BF-GFQX】一、系統(tǒng)目標 :分布式光伏發(fā)電監(jiān)測系統(tǒng)旨在通過智能化的監(jiān)測手段,實現(xiàn)對
    的頭像 發(fā)表于 08-22 10:51 ?3198次閱讀
    <b class='flag-5'>分布式</b>光伏發(fā)電監(jiān)測<b class='flag-5'>系統(tǒng)</b>技術(shù)方案

    園區(qū)分布式光伏發(fā)電監(jiān)控系統(tǒng)

    簡婷 安科瑞電氣股份有限公司 上海嘉定? 201801 技術(shù)支持18701998775 園區(qū)部署分布式光伏發(fā)電監(jiān)控系統(tǒng),是實現(xiàn)光伏項目高效運營、風(fēng)險可控、收益大的核心保障,其必要體現(xiàn)在以下多個維度
    的頭像 發(fā)表于 07-31 15:49 ?1068次閱讀
    園區(qū)<b class='flag-5'>分布式</b>光伏發(fā)電監(jiān)控<b class='flag-5'>系統(tǒng)</b>

    QNAP 正式推出 NAS 雙機架構(gòu)的可用性解決方案,打造不中斷的儲存環(huán)境

    臺北2025年7月28日 /美通社/ -- 運算、網(wǎng)通與儲存解決方案領(lǐng)導(dǎo)品牌威聯(lián)通?科技 (QNAP? Systems, Inc.) 今日正式發(fā)布可用性 (High Availability
    的頭像 發(fā)表于 07-28 09:26 ?605次閱讀

    分布式光伏總出問題?安科瑞分布式光伏監(jiān)控系統(tǒng)來“救場”

    一、分布式光伏的痛點大揭秘 在 “雙碳” 目標的大力推動下,分布式光伏作為綠色能源領(lǐng)域的重要力量,正以前所未有的速度蓬勃發(fā)展,越來越多的企業(yè)和家庭選擇安裝分布式光伏系統(tǒng)。然而,隨著
    的頭像 發(fā)表于 07-16 16:50 ?825次閱讀
    <b class='flag-5'>分布式</b>光伏總出問題?安科瑞<b class='flag-5'>分布式</b>光伏監(jiān)控<b class='flag-5'>系統(tǒng)</b>來“救場”

    Ceph分布式存儲系統(tǒng)解析

    在當今數(shù)據(jù)爆炸的時代,企業(yè)對存儲系統(tǒng)的需求日益增長,傳統(tǒng)的集中式存儲已經(jīng)無法滿足大規(guī)模數(shù)據(jù)處理的要求。分布式存儲系統(tǒng)應(yīng)運而生,而Ceph作為開源分布式存儲
    的頭像 發(fā)表于 07-14 11:15 ?996次閱讀

    分布式光伏發(fā)電監(jiān)控系統(tǒng)

    、低壓并網(wǎng)分布式光伏電站的升壓系統(tǒng)、光伏逆變器等設(shè)備進行全面監(jiān)控,采集微機保護裝置、自動控制設(shè)備、電能質(zhì)量監(jiān)測裝置、光伏逆變器、一體化電源等設(shè)備數(shù)據(jù),并提供有功功率控制(AGC)、電壓無功綜合
    的頭像 發(fā)表于 06-25 13:41 ?945次閱讀
    <b class='flag-5'>分布式</b>光伏發(fā)電監(jiān)控<b class='flag-5'>系統(tǒng)</b>

    雙電機分布式驅(qū)動汽車高速穩(wěn)定性機電耦合控制

    摘要:為了利用所設(shè)計的雙電機防滑差速驅(qū)動系統(tǒng)來提高分布式驅(qū)動汽車的動力學(xué)性能,在前期同軸耦合驅(qū)動控制理論研究的基礎(chǔ)上,開展該車的高速穩(wěn)定性機電耦合控制研究。建立并驗證包含所設(shè)計驅(qū)動系統(tǒng)在內(nèi)的
    發(fā)表于 06-18 16:37

    多通道電源管理芯片在分布式能源系統(tǒng)中的優(yōu)化策略

    理、可靠設(shè)計以及系統(tǒng)集成為主軸展開分析,為分布式能源系統(tǒng)效能提升提供堅實理論基石與創(chuàng)新實踐路徑。 關(guān)鍵詞: 多通道電源管理芯片;分布式能源
    的頭像 發(fā)表于 05-16 15:22 ?895次閱讀

    Vsan數(shù)據(jù)恢復(fù)——Vsan分布式文件系統(tǒng)上虛擬機不可用的數(shù)據(jù)恢復(fù)

    一臺采用VsSAN分布式文件系統(tǒng)的存儲設(shè)備由于未知原因關(guān)機重啟。管理員發(fā)現(xiàn)上層的虛擬機不可用,存儲內(nèi)的數(shù)據(jù)丟失。
    的頭像 發(fā)表于 05-15 17:42 ?571次閱讀
    Vsan數(shù)據(jù)恢復(fù)——Vsan<b class='flag-5'>分布式</b>文件<b class='flag-5'>系統(tǒng)</b>上虛擬機不<b class='flag-5'>可用</b>的數(shù)據(jù)恢復(fù)

    抗干擾CAN總線通信技術(shù)在分布式電力系統(tǒng)中的應(yīng)用

    摘要 :隨著分布式電力系統(tǒng)的廣泛應(yīng)用,其通信系統(tǒng)的可靠與穩(wěn)定性受到了前所未有的挑戰(zhàn)。CAN總線通信技術(shù)以其卓越的抗干擾性能和可靠,在眾多
    的頭像 發(fā)表于 04-14 18:24 ?1088次閱讀

    分布式光伏發(fā)運維系統(tǒng)實際應(yīng)用案例分享

    安科瑞劉鴻鵬 摘?要 分布式光伏發(fā)電系統(tǒng)其核心特點是發(fā)電設(shè)備靠近用電負荷中心,通常安裝在屋頂、建筑立面或閑置空地上,截至2025年,分布式光伏發(fā)電系統(tǒng)在全球和中國范圍內(nèi)取得了顯著發(fā)展,
    的頭像 發(fā)表于 04-09 14:46 ?1250次閱讀
    <b class='flag-5'>分布式</b>光伏發(fā)運維<b class='flag-5'>系統(tǒng)</b>實際應(yīng)用案例分享

    淺談分布式光伏系統(tǒng)在工業(yè)企業(yè)的設(shè)計及應(yīng)用

    主要對工業(yè)廠區(qū)屋頂分布式光伏發(fā)電系統(tǒng)的設(shè)計及應(yīng)用進行研究,為工業(yè)廠區(qū)能源供應(yīng)提供一種全新的解決思路和技術(shù)支持。介紹了工業(yè)廠區(qū)屋頂分布式光伏系統(tǒng)及其優(yōu)勢,分析了工業(yè)廠區(qū)屋頂
    的頭像 發(fā)表于 03-21 14:24 ?965次閱讀
    淺談<b class='flag-5'>分布式</b>光伏<b class='flag-5'>系統(tǒng)</b>在工業(yè)企業(yè)的設(shè)計及應(yīng)用