老子影院午夜精品无码,亚洲欧洲三级片视频,天堂网AV018

01.摘要

隨著大規(guī)模分布式數(shù)據(jù)處理和復雜數(shù)據(jù)中心服務的興起，數(shù)據(jù)中心內部流量急劇增加，其特征與高性能超級計算機中的流量相似。然而，用于超級計算機和數(shù)據(jù)中心的網(wǎng)絡技術存在顯著差異，因此將它們整合起來是一個自然的問題。

本文探討了這兩種工作負載類型和技術之間的差異和共性，概述了在多個層面實現(xiàn)整合的途徑。并預測新興的智能網(wǎng)絡解決方案將加速這種整合的過程。

02.引言

近年來，數(shù)據(jù)中心計算經(jīng)歷了前所未有的增長，由最初的內部服務器機房發(fā)展為巨型、超級和倉儲規(guī)模的數(shù)據(jù)中心。這些系統(tǒng)中的網(wǎng)絡端點數(shù)量已經(jīng)超過了世界上最大超級計算機的規(guī)模，這些超級計算機剛剛達到了Exascale標準。第一代數(shù)據(jù)中心的網(wǎng)絡主要為外部客戶提供數(shù)據(jù)，并支持在數(shù)據(jù)中心運行的簡單分布式應用。然而，隨著大規(guī)模數(shù)據(jù)處理和機器學習的出現(xiàn)，數(shù)據(jù)中心網(wǎng)絡的需求迅速納入了傳統(tǒng)高性能計算的范疇。這些新的流量需求引發(fā)了關于高性能和傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡是否應該融合的討論。盡管由此產生的規(guī)模經(jīng)濟具有吸引力，但也有一些阻礙融合的因素。在本文中，我們指出了高性能計算和數(shù)據(jù)中心計算之間的差異和共性，以及它們對大規(guī)模網(wǎng)絡技術發(fā)展的影響。我們得出結論，能夠同時支持高性能計算（HPC，High Performance Computing）和超大數(shù)據(jù)中心（MDC，Mega Data Center）工作負載的智能高性能數(shù)據(jù)中心網(wǎng)絡將很快在工業(yè)界得以應用。

高性能計算一直在推動計算的極限。頂級系統(tǒng)，稱為超級計算機，在地球上具有最高的集中計算能力。雖然大多數(shù)超級計算機同時運行多個應用程序，但它們被設計為在整個機器上運行單個“頂級運行”（Hero Run）應用程序，以解決世界上最具挑戰(zhàn)性的問題，如在大流行傳染病中尋找疫苗，或訓練最大的深度學習模型。在當今的技術限制下，超級計算機不再是單一服務器，而是由數(shù)萬個通過高速通信網(wǎng)絡連接的獨立服務器組成。網(wǎng)絡（即互連）是最關鍵的組成部分，超級計算機的設計圍繞特定的網(wǎng)絡架構。這使得網(wǎng)絡成為一個主要的區(qū)分因素，因為“單一應用”場景通常具有嚴格的延遲和帶寬要求?？梢哉f，正是互連網(wǎng)絡將一組服務器轉變?yōu)槌売嬎銠C。

超級計算機系統(tǒng)運行并行應用程序，最常在使用消息傳遞接口（MPI，Message Passing Interface，[1]）的分布式內存超級計算機上實現(xiàn)。MPI程序在每臺服務器上以進程形式運行相似的代碼，并且算法通常使用大規(guī)模同步并行（BSP，Bulk Synchronous Parallel）計算模型設計，作為一系列計算-通信-同步階段。在此場景中，應用程序只能在所有進程完成同步后進入下一個階段。這一問題在后來在超大規(guī)模數(shù)據(jù)中心（MDC）中被重新發(fā)現(xiàn)，成為長尾問題[2]。許多編程技術可以減少同步和通信開銷（例如，[3]，[4]），然而，在極端擴展的情況下，BSP應用程序受到延遲的限制。實際上，通信延遲（尾部）分布確定了系統(tǒng)的可擴展性極限，并確定了單個應用程序可以有效使用的最大進程數(shù)[5]。

圖1：數(shù)據(jù)中心和HPC機器的使用場景。云數(shù)據(jù)中心為多個客戶提供各種交互式服務，其中包括一些分布式服務，例如機器3-5上的機器學習訓練任務。右側的HPC數(shù)據(jù)中心主要專注于為三個分布式仿真工作負載提供服務，客戶在這里不需要即時答復。

超級計算機的規(guī)模已經(jīng)被倉儲規(guī)模的超大數(shù)據(jù)中心超越?，F(xiàn)代網(wǎng)絡化世界需要存儲和處理由連接的客戶端設備消耗的數(shù)據(jù)。每個人現(xiàn)在都擁有多個移動設備，并產生和消耗越來越多以云為中心的計算和存儲。此外，并非所有客戶端端點必須在設備后面由人類消耗數(shù)據(jù)或服務。隨著物聯(lián)網(wǎng)（IoT）的普及，數(shù)億臺設備向全球數(shù)據(jù)中心傳送圖像、視頻和網(wǎng)頁等數(shù)據(jù)。AWS、Google、Facebook或Microsoft等超大數(shù)據(jù)中心的規(guī)模大于最大的單一超級計算機，并且它們在相同的計算、存儲和網(wǎng)絡基礎設施上同時運行更多多樣化的應用程序，以支持更多互動式終端用戶。MDC運營商的范圍是其全球用戶群，隨著應用的增長，而HPC運營商的范圍是在規(guī)劃時定義的應用程序容量。圖1顯示了HPC和MDC工作負載的概貌。

MDC系統(tǒng)運行分布式應用程序，其中異步進程使用諸如遠程過程調用（RPC）等編程接口進行成對通信。這些應用程序很少需要使用多服務器或全局同步，因此減少了延遲對總體應用性能的影響。單個端點對之間的通信產生的增加的延遲僅影響個別請求，而不影響整個應用程序。每當在MDC應用程序中出現(xiàn)多對一的通信模式，例如在Map-Reduce或分布式文件系統(tǒng)中的組播模式，開發(fā)人員通常依賴于軟截止期限，以減輕響應延遲的長尾影響。由此產生的應用程序不會在無限的尾延遲下停滯，而是在結果質量或效率上做出妥協(xié)。這是通過簡單地忽略遲到的RPC響應或在不同服務器上冗余地啟動它們來實現(xiàn)的。因此，網(wǎng)絡缺陷不會減緩應用程序，而是導致了資源的浪費（可以通過添加更多服務器來恢復）。

數(shù)據(jù)中心的傳統(tǒng)角色是存儲、處理和將數(shù)據(jù)傳遞給驅動從其服務器到互聯(lián)網(wǎng)的終端客戶的數(shù)據(jù)，形成所謂的南北流量。當面向互聯(lián)網(wǎng)的路徑成為瓶頸時，數(shù)據(jù)中心網(wǎng)絡容量可以相對較小。然而，在當今分布式數(shù)據(jù)分析和機器學習的時代，互連網(wǎng)絡的吞吐量和延遲要求穩(wěn)步增長，與服務器之間的通信相關的東西西流量以數(shù)量級的方式占主導地位。從這個意義上說，MDC流量類似于傳統(tǒng)的HPC應用程序，盡管應用了更容忍延遲的模型。對于一些新興應用程序來說，明顯地表明HPC和現(xiàn)代大數(shù)據(jù)分析（例如深度學習、文檔搜索或推薦系統(tǒng)）具有相似的計算和通信模式。例如，許多機器學習可以被表達為張量代數(shù)，協(xié)同過濾類似于雙分圖上的傳統(tǒng)圖分析。這些大數(shù)據(jù)工作負載與傳統(tǒng)HPC工作負載之間的主要區(qū)別在于前者強調程序員的生產力，而后者強調性能。由于各種原因，編程環(huán)境可能會繼續(xù)沿著不同的路徑演變，但我們認為底層工作負載及其計算特性非常相似，并且正在迅速趨于融合。

然而，這些工作負載是使用非常不同的互連網(wǎng)絡模式：HPC網(wǎng)絡被優(yōu)化為最高性能，而MDC網(wǎng)絡遵循傳統(tǒng)的數(shù)據(jù)中心部署和運營理念。當深入了解細節(jié)時，就會發(fā)現(xiàn)最底層已經(jīng)趨于融合，隨著向上移動，共性逐漸顯現(xiàn)。此外，高性能加速器的引入（例如通用圖形處理單元，GPU）對當今的MDC產生了更高帶寬需求，需要在MDC中引入專業(yè)網(wǎng)絡，導致HPC樣式的網(wǎng)絡連接島嶼。這些系統(tǒng)通常通過專用的HPC樣式后端網(wǎng)絡來補充前端數(shù)據(jù)中心網(wǎng)絡。例如，Google TPU的專用環(huán)形互連和Azure HPC的InfiniBand部署連接GPU服務器。這種復制導致了顯著的低效率——考慮到底層已經(jīng)相同，只是通信協(xié)議不同！事實上，像AWS Nitro和Microsoft的Catapult [6]這樣的端點解決方案嘗試優(yōu)化現(xiàn)有的以太網(wǎng)絡。從另一方面來看，Cray的Slingshot技術 [7]來自以HPC為中心的視角，并增加了以太網(wǎng)兼容性。這些例子顯示了需求和解決方案如何隱含了一個共同的高性能網(wǎng)絡解決方案。

雖然在高層次上，HPC和MDC的網(wǎng)絡需求相似，但細節(jié)中藏著復雜之處。我們將討論一系列要求，涵蓋了從設計和部署哲學到應用程序編程接口的HPC和數(shù)據(jù)中心網(wǎng)絡之間的差異。我們評論每個差異的根本性，并揭示未來基于智能網(wǎng)卡（NIC）和交換機的網(wǎng)絡計算解決方案將彌合其中許多差異。每個部分都以簡要的技術預測結束。

03.設計和部署哲學

兩種網(wǎng)絡觀點之間最顯著的差異在于機器部署的方式。一個MDC自然是來自多個供應商的松散連接的服務器集合，可以逐步擴展和升級。布線基礎設施會經(jīng)歷多代機器和技術。MDC會將光纖安裝為樓宇基礎設施，從而將基礎設施和大部分網(wǎng)絡拓撲與服務器解耦。機架交換機代表了數(shù)據(jù)中心網(wǎng)絡和計算服務器之間的架構邊界。多供應商支持是基本的，并且基于以太網(wǎng)用于物理層和互聯(lián)網(wǎng)協(xié)議（IP）用于更高層次。速度異構性對于MDC網(wǎng)絡也是基本的，不同的服務器可能以不同的鏈路速度連接，并且內部網(wǎng)絡鏈路可能與端點速度不同。MDC運營商無法承受因重新配置而導致的大量停機時間，必須同時運行多種技術。在MDC中進行的這種增量升級使現(xiàn)代化變得具有挑戰(zhàn)性，并禁止在技術上取得大的躍進。

傳統(tǒng)上，超級計算機被視為一次性的安裝，并且通常是按照這種方式設計和布線的：所有端點和內部鏈路的鏈路速度都相同；它們的網(wǎng)絡使用單一供應商的組件；通常在初始安裝之前就會制定升級計劃。由于高帶寬互連的重要性和成本，許多超級計算機超越了Clos網(wǎng)絡或胖樹作為互連拓撲的方案。設計范圍從超立方體或高維扭曲網(wǎng)絡 [8] 到更具成本效益的低直徑拓撲 [9]，[10]。它們的部署模型允許超級計算機在系統(tǒng)的每個新一代中應用對網(wǎng)絡技術的徹底變革。HPC站點會并行運行舊系統(tǒng)和新系統(tǒng)，在停用系統(tǒng)之前遷移工作負載。這種操作模式在占地面積、功耗和成本方面昂貴，HPC運營商正在推動更加漸進的方法。

技術預測：增量部署和向后兼容性要求阻礙了許多創(chuàng)新技術在MDC中的應用。HPC系統(tǒng)將繼續(xù)引領技術領域朝著完全新的、革命性的方向發(fā)展。

04.運營理念

在歷史上，數(shù)據(jù)中心和HPC中心對其運營采取了非常不同的方式。這是由他們的客戶所要求的：云數(shù)據(jù)中心為從手機用戶到銀行和醫(yī)院等各種終端客戶提供服務。它們運行I/O密集的工作負載作為實時服務，其中中斷在幾秒鐘內就可見，并可能導致巨大的經(jīng)濟損失。例如，收集的數(shù)據(jù)，比如信用卡交易，無法重建，任何損失都是有害的。因此，提供的服務必須非?？煽坎⑹冀K可用。超級計算機沿著一條不同的道路發(fā)展，這條道路以性能和成本為代價，其中可以容忍小規(guī)模的中斷（每年幾個小時）。個別作業(yè)可能會失敗，只要它們可以在服務等級協(xié)議（SLA）允許的時間內重新運行，并且計算資源進行了過度配置以允許這樣做。這使得HPC運營商能夠在軟件和硬件方面采用更冒險的部署，并且總體上比MDC運營商在網(wǎng)絡和硬件技術方面更為激進。

MDC網(wǎng)絡通過結合確保部分操作的機制（例如，用于故障隔離的獨立網(wǎng)絡平面）和用于控制平面冗余的分布式協(xié)議，以優(yōu)先考慮網(wǎng)絡可用性。HPC互連使用單獨的管理網(wǎng)絡以確保可靠性，但依賴于集中式控制平面來實現(xiàn)高性能網(wǎng)絡，以在有效管理的情況下接受短時間的不可用性。在MDC上運行的應用程序使用軟件級別的復雜冗余（例如，在單獨的服務器上使用備用服務或復制存儲）來實現(xiàn)可靠性。在故障端點上運行的應用程序將迅速重新啟動到新資源上，并重新連接到服務。這使得運營商可以以更低可靠性的、更便宜的硬件為代價，但需要額外的軟件開銷。另一方面，HPC應用程序依賴于在故障后從檢查點重新啟動應用程序。為了在大規(guī)模時降低重新啟動成本，HPC供應商使用比MDC更可靠的硬件，例如，HPC網(wǎng)絡使用鏈路級和端到端的重試來保護通信。因此，HPC軟件的可靠性開銷較低，而MDC必須采用昂貴的復制和共識方案。MDC網(wǎng)絡運營商可以從HPC中學到更先進的硬件容錯技術，例如使用鏈路級重試。

安全性對于任何計算系統(tǒng)都是一個重要的考慮因素。HPC系統(tǒng)在軟件[11]和硬件安全性方面?zhèn)鹘y(tǒng)上要求不那么嚴格，通常依賴于物理安全性（例如，空氣隔離系統(tǒng)和建筑保護），并避免在節(jié)點上使用多租戶。系統(tǒng)管理員是一個受信任的實體，用戶被謹慎地允許進入系統(tǒng)。MDC系統(tǒng)為敏感的第三方工作負載提供服務，其租戶不信任運營商或其他租戶，后者可能是任何持有信用卡的人。這需要在MDC中具備更高水平的安全性，并促使解決方案的出現(xiàn)，例如可信執(zhí)行或一般的機密計算，以及安全的高性能網(wǎng)絡[12]。最近，越來越多的HPC系統(tǒng)在共享文件系統(tǒng)中托管敏感數(shù)據(jù)（例如醫(yī)療記錄），因此需要采用類似MDC的安全性概念。

MDC由極少數(shù)人員操作；其規(guī)模如此之大，以至于使用基于人的操作模型是不切實際的，自動化是必須的。這要求具備復雜的監(jiān)控、日志記錄和控制基礎設施，在HPC系統(tǒng)中是不存在的。監(jiān)控對于故障排除和容量管理至關重要。雖然我們尚未深入討論容量問題，但“工作負載焦慮”是MDC網(wǎng)絡設計中的一個重要因素。這源于計算和存儲容量必須被配置來吸收端用戶流量和應用工作負載配置中的不可預測的變化。網(wǎng)絡必須容忍這種計算、存儲和工作負載的變化，而不需要進行重大的重新設計。

MDC在部署或配置應用程序時不愿考慮物理親和性，因為容量是按照時間順序部署的，而親和性會使虛擬機（VM）分配策略變得更加復雜。此外，可用性服務級別協(xié)議要求在區(qū)域或可用性區(qū)域內跨數(shù)據(jù)中心分布應用程序。在HPC應用程序部署中通?？紤]地理位置。雖然在遞歸結構網(wǎng)絡（例如胖樹或Clos網(wǎng)絡）上相對簡單實現(xiàn)本地放置，但在其他拓撲上實現(xiàn)本地放置較為困難。然而，全球帶寬網(wǎng)絡承諾使得放置決策變得不那么關鍵。

技術預測：根本的差異在于對（網(wǎng)絡）可用性和安全性的處理方式。如果HPC運營商實施MDC運營提出的更嚴格的要求，HPC和MDC網(wǎng)絡的運營方面將縮小差距。其他方面更為相似，可能會趨于融合。

05.服務多樣性

MDC折射了其運營商的業(yè)務模式。一個專注于向企業(yè)客戶銷售虛擬機容量的運營商（例如Microsoft），與一個聚焦于人際互動的“終端用戶中心”運營商（例如Facebook），擁有不同的網(wǎng)絡配置文件、控制策略和服務級別協(xié)議（SLA）。然而，所有MDC運營商都廣泛應用虛擬化和多租戶技術，以提高管理效率和資源利用率。虛擬化對網(wǎng)絡產生深遠影響，因為它促使采用覆蓋網(wǎng)絡，將流量引導到虛擬端點而非物理端點。而當前的HPC互連則未涉及這種虛擬化或多租戶的要求，通過采用裸金屬尋址以降低開銷。

MDC承載著大量具有截然不同流量需求的服務。例如，吞吐量型工作負載，如備份流量、復制和存儲，與對延遲極為敏感的流量（如分布式計算和客戶互動）共享相同的物理鏈路。這對MDC網(wǎng)絡提出了極高的服務質量（QoS）要求。HPC網(wǎng)絡主要用于并行計算和文件I/O，QoS曾不是首要任務，盡管隨著工作負載多樣性的增加，它變得越來越重要。例如，許多HPC和AI應用程序中使用的AllReduce操作在相對靜默的網(wǎng)絡上表現(xiàn)良好，但其他租戶的流量可能顯著影響可擴展性[13]。值得注意的是，用于美國Exascale系統(tǒng)的HPC互連提供了QoS和先進的擁塞管理。

MDC網(wǎng)絡的規(guī)模受可靠供電而非應用可擴展性的限制。當今的MDC網(wǎng)絡跨足多個位置和地區(qū)，以確保在面對大規(guī)模故障時仍能保持可用性。這引入了高度的數(shù)據(jù)中心間流量，與傳統(tǒng)的數(shù)據(jù)中心內部東西流量和面向客戶的南北流量不同。另一方面，HPC流量主要由保持在單個數(shù)據(jù)中心內的本地通信所主導。

技術預測：在MDC網(wǎng)絡上運行的服務將繼續(xù)需要廣泛的QoS類別。HPC系統(tǒng)將看到服務多樣性的增加，這將使MDC風格的機制變得相關。

06.協(xié)議棧和層次結構

開放系統(tǒng)互連（OSI）層次結構規(guī)定了從物理層（L1）到應用層（L7）的通信協(xié)議棧的設計模式。層次之間的區(qū)分有爭議，但大多數(shù)互聯(lián)網(wǎng)服務可以映射到它們。數(shù)據(jù)中心業(yè)界繼承了許多傳統(tǒng)的互聯(lián)網(wǎng)協(xié)議棧，并且只是最近開始轉向更專業(yè)化的協(xié)議，例如數(shù)據(jù)中心TCP（DCTCP）或數(shù)據(jù)中心量化擁塞通知（DCQCN）。然而，HPC網(wǎng)絡始終調整為最高性能，并且不提供用于完整OSI棧所需的許多頭部（每個協(xié)議級別一個）。例如，在HPC互連網(wǎng)絡中，傳輸層L3很少存在，因為網(wǎng)絡不打算可路由。圖2比較了MDC和HPC系統(tǒng)的OSI層次。

圖2：開放系統(tǒng)互聯(lián)層

在電氣或光信號級別（L1），MDC和HPC網(wǎng)絡是相同的。在布線和設備基礎設施的規(guī)模經(jīng)濟和眾多的技術約束方面，確保誰先到達誰就是贏家。以25G、56G，以及最近的112G通道為代表，以太網(wǎng)多年來一直在這場競賽中勝出。一些HPC和MDC網(wǎng)絡技術共享L2-L4，但其他HPC技術采用專有協(xié)議，具有更專業(yè)和更精簡的頭部，以實現(xiàn)最低的開銷。

一個有趣的融合點是遠程直接內存訪問（RDMA），長期以來一直在HPC和存儲網(wǎng)絡中使用，以在L4或L5上實現(xiàn)源進程和目標進程之間的高性能通信。該協(xié)議通常完全卸載到硬件實現(xiàn)中，操作系統(tǒng)繞過減少了延遲和延遲的變化。許多MDC運營商在生產中使用或計劃使用它（Azure、Google 1RMA、AWS Nitro）。然而，在MDC規(guī)模上，RDMA和TCP/IP流之間的緩沖區(qū)和帶寬共享可能會對某些流量造成不利影響。

當今RDMA網(wǎng)絡實現(xiàn)中的簡單基于硬件的重傳機制依賴于無丟包傳輸層。然而，大多數(shù)數(shù)據(jù)中心網(wǎng)絡傳統(tǒng)上使用有丟包的路由器，即在隊列滿時丟棄數(shù)據(jù)包。盡管有關有丟包（端點控制的流速）與無丟包（網(wǎng)絡控制的流速）的辯論尚未結束，但RDMA對無丟包網(wǎng)絡的要求在保守的數(shù)據(jù)中心環(huán)境中提高了應用的障礙。出于這個原因，為了確保無丟包的語義，MDC將RDMA流量分配到專用的QoS隊列或在后端網(wǎng)絡中進行物理隔離。

技術預測：隨著鏈路速度的增加，額外數(shù)據(jù)包頭部的相對帶寬開銷逐漸消失，HPC網(wǎng)絡可能選擇支持更復雜的可路由協(xié)議。我們預計將看到對UDP/IP上基于消息的協(xié)議的轉變；遠程直接內存訪問（RDMA）通過融合以太網(wǎng)（RoCE）是這一趨勢的第一個跡象。在MDC和HPC規(guī)模上的實驗和優(yōu)化將受到離散事件網(wǎng)絡模擬的推動，例如分布式的ns-3、SST或LogGOPSim。

07.網(wǎng)絡利用率

網(wǎng)絡利用率即成本效益，是MDC和HPC系統(tǒng)中的重要驅動因素之一。由于許多MDC應用程序可以容忍較高的延遲，因此它們的網(wǎng)絡理論上可以以更高的穩(wěn)定利用率運行，并且在平均負載超過30-40%的情況下，不會產生過多的延遲影響。然而，丟包的影響可能如此嚴重，以至于運營商努力保持網(wǎng)絡鏈路的利用率遠低于數(shù)據(jù)包開始丟棄的點。

在網(wǎng)絡規(guī)劃階段，網(wǎng)絡利用率是關于估算所有疊加工作負載的端到端性能的。我們發(fā)現(xiàn)，在這個階段，應用網(wǎng)絡模擬可以分析個別鏈路的運行狀態(tài)、交換機緩沖區(qū)的壓力，當然還有數(shù)據(jù)包的丟棄和重傳。在運營階段，網(wǎng)絡利用率是關于監(jiān)視相同的鏈路和交換機緩沖區(qū)，當然還要將丟包和重傳與鏈路和緩沖區(qū)進行關聯(lián)。模擬和操作都可以以服務級別協(xié)議（SLA）為導向，其中整個網(wǎng)絡利用率通過延遲分布來感知，幾乎不需要將帶寬作為指標處理。

大規(guī)模的BSP式HPC應用程序在通信和計算階段運行，產生突發(fā)的開關式流量模式，對延遲分布有嚴格的要求。HPC網(wǎng)絡被設計為滿足突發(fā)流量的峰值帶寬要求。當系統(tǒng)運行多個作業(yè)時，可以增加效益，但作業(yè)之間的爭用，也被稱為“近鄰干擾”（Noisy Neighbor）問題，會導致關鍵的延遲變化。在MDC和HPC網(wǎng)絡中，性能隔離可以緩解此問題，因此這是一個關注點。MDC運營商在流量源（通常是虛擬機）處實施速率限制器以解決網(wǎng)絡性能隔離問題。在HPC中，確保最小化性能變化要求限制應用程序及其流量類型之間的交互，因為系統(tǒng)噪聲[5]，[14]和網(wǎng)絡噪聲[13]，[15]對應用程序性能產生有害影響。在HPC網(wǎng)絡中使用的單一供應商模型允許部署在更細粒度上運行的新型硬件擁塞管理機制（例如[7]）。

靜態(tài)等代價多路徑（ECMP，Static Equal Cost Multipathing）可能導致?lián)砣麩狳c，尤其是在通信密集型流較少的情況下。自適應路由或數(shù)據(jù)包噴射（packet spraying）可提高網(wǎng)絡利用率，同時控制瞬時數(shù)據(jù)包丟失的風險。然而，直到最近，大多數(shù)商用以太網(wǎng)交換機沒有提供自適應路由或數(shù)據(jù)包噴射，因為MDC網(wǎng)絡端點不太支持亂序數(shù)據(jù)包的接收。最近引入了自適應流簇（flowlet）路由，在不改變數(shù)據(jù)包順序的同時提供某種有限形式的自適應路徑選擇，這在MDC交換機中得到了應用。自適應路由是在低直徑拓撲（在HPC中常見）中高效利用的先決條件，基本上允許同時使用最小路徑和非最小路徑。HPC網(wǎng)絡端點使用RDMA傳輸支持亂序交付，其中數(shù)據(jù)包攜帶目標地址并可以獨立寫入內存。

技術預測：基于UDP/IP的基于消息的協(xié)議的興起放寬了端點的排序要求，使得超越靜態(tài)多路徑的路由方法成為可能。我們還預測這些傳輸?shù)膿砣苊夥矫?，以及TCP本身，將產生快速的演進。

08.應用程序和編程模型需求

應用程序需求在兩方面都發(fā)生了變化，并且似乎在中間趨于一致。HPC曾經(jīng)是非常底層的，應用在裸機上運行，并通過緊湊的消息傳遞（MPI）[1]，[16]或遠程內存訪問（RMA）[17]接口訪問網(wǎng)絡。這些接口可以提供低于100納秒的開銷，以達到亞微秒級的端到端延遲。MDC應用程序通常依賴于開銷巨大的拷貝語義的套接字?？焖俚腞PC框架[18]可以潛在地彌合差距，并在MDC環(huán)境中實現(xiàn)透明的零拷貝。

基于任務的HPC編程模型使用和擴展這些已建立的接口，以放寬BSP對延遲的要求。傳統(tǒng)的MDC應用程序對延遲相對不敏感，但新興的工作負載，例如新的數(shù)據(jù)分析和深度學習工作負載類似于BSP風格的HPC應用程序，并具有同樣嚴格的延遲要求。然而，在MDC中，程序員的生產力、快速原型設計和快速部署比性能更為重要。只有成熟的應用程序和堆棧明確針對性能進行調優(yōu)。許多應用程序是使用Java或Python等托管語言編寫的，并在虛擬化環(huán)境中運行，僅用了多達10微秒才能到達網(wǎng)絡。HPC和MDC在不同的級別進行優(yōu)化：HPC專注于最佳利用CPU和網(wǎng)絡資源，而MDC專注于整個系統(tǒng)的生產力和利用率。

不同的應用需求導致了不同的網(wǎng)絡API。對于高性能計算來說，向RDMA網(wǎng)絡的轉變發(fā)生在將近二十年前。從那時起，RDMA一直以個位數(shù)微秒的延遲運行，允許將大部分通信工作卸載到網(wǎng)絡接口。虛擬內存機制允許數(shù)據(jù)路徑繞過主機操作系統(tǒng)，直接在端點內存之間移動數(shù)據(jù)。高性能計算編程框架直接向應用程序公開遠程內存訪問語義，以最小化開銷[17]。而MDC則逐漸認識到這些技術的潛力[19]。由于RDMA不適用于傳統(tǒng)的TCP/IP套接字模型和分層路由，MDC應用速度較慢。然而，RoCEv2和Priority Flow Control（PFC）等規(guī)范使得L3路由成為可能，并將RDMA引入MDC。

現(xiàn)代HPC網(wǎng)絡遠不止于RDMA，網(wǎng)卡執(zhí)行消息匹配和集體操作，將這些任務從CPU或GPU卸載出來，以提高計算和通信的重疊。MDC中的智能網(wǎng)卡應用通常是為了提供者的利益，確保隔離，而不是改善租戶應用。在MDC中，多租戶使得卸載用戶級邏輯比在HPC中更加復雜，因為網(wǎng)卡通常由單個應用程序擁有。通用的智能網(wǎng)卡編程接口，如網(wǎng)絡中的流處理（sPIN [20]），承諾一種通用的加速策略，可以描述為網(wǎng)絡的CUDA。

技術預測：RDMA在當今的HPC系統(tǒng)中無處不在，而MDC運營商正在為其更大比例的流量采用RDMA。此外，我們預計在MDC和HPC網(wǎng)絡中會看到可編程網(wǎng)絡加速器的顯著發(fā)展，超越RDMA的簡單內存存儲語義。

09.結論與預測

盡管數(shù)據(jù)中心提供商正忙于調整到RDMA和數(shù)據(jù)包級別的路由方法，但研究界正在迅速轉向具有智能網(wǎng)卡和交換機的通用的流處理。新的網(wǎng)絡加速設備以及營銷術語，如DPU、IPU或NPU，正被各種供應商推向市場。

目前，它們主要部署在微軟的Catapult和AWS的Nitro網(wǎng)卡上，用作基礎設施支持。它們的主要用途是提高安全性（租戶隔離），效率（封裝和加密卸載）和成本（專業(yè)化和內部開發(fā)），以支持多租戶主機。HPC系統(tǒng)尚未大規(guī)模部署智能網(wǎng)卡。我們預測，它們的角色將很快包括更通用的網(wǎng)絡處理和將應用特定協(xié)議卸載到專用硬件。

由于HPC和MDC之間的主要區(qū)別在協(xié)議棧的上層，智能網(wǎng)卡和網(wǎng)絡計算可以通過使用應用特定協(xié)議將兩者統(tǒng)一起來。我們將在同一網(wǎng)絡上看到基于套接字的（TCP/IP或QUIC）應用程序和MPI應用程序，并且智能加速的網(wǎng)卡（參見[21]）將實現(xiàn)協(xié)議的差異。此外，應用特定協(xié)議是端點和交換機中網(wǎng)絡加速的重要機遇。我們將看到基于交換機的網(wǎng)絡計算，例如用于深度學習工作負載的減少[22]，從而在所有層面實現(xiàn)工作負載的專業(yè)化。

與網(wǎng)絡組件（如網(wǎng)卡或交換機）相關的術語“智能”需要超出當前營銷術語的嚴格定義。我們建議將網(wǎng)絡接口稱為“智能”，如果它允許對消息或流進行有狀態(tài)計算。有了這樣清晰的定義，我們可以推理出這些智能網(wǎng)絡的行為。

我們得出結論，雖然HPC和MDC在應用層面上趨于融合，但它們的特性需求足夠不同，以支持兩條發(fā)展線。當前的生態(tài)系統(tǒng)形成了一個有趣的反饋循環(huán)，突破性的新技術可以在風險可接受的HPC環(huán)境中推動并測試。然而，大眾市場仍將是以太網(wǎng)，它會慢慢吸收在HPC中開發(fā)的成功技術。最近的一個例子是RoCE的出現(xiàn)。如果可以通過使用智能網(wǎng)卡和交換機進行配置，HPC和MDC都可以通過使用相同的硬件基礎設施顯著降低成本。以太網(wǎng)品牌的核心是互操作性的承諾，這可以為HPC和MDC網(wǎng)絡奠定堅實的基礎，然而，支持RDMA的供應商仍需履行這一承諾。

總之，雖然我們不知道哪種技術將在10-15年內主導大眾市場，但它肯定會被稱為以太網(wǎng)。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴