91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

InfiniBand和遠程直接訪問是什么,如何進行配置

sakobpqhz ? 來源:算力基建 ? 作者:算力基建 ? 2022-11-25 14:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文簡單描述了InfiniBand 和遠程直接訪問(RDMA)是什么,以及在實踐中如何配置InfiniBand網(wǎng)絡硬件。另外,本文檔解釋了如何配置與 InfiniBand 相關的服務。

01InfiniBand 和 RDMA 介紹

InfiniBand代表兩個不同的因素:

1、InfiniBand網(wǎng)絡的物理鏈路協(xié)議

2、InfiniBand Verbs API,這是RDMA(remote direct memory access)技術的一個實現(xiàn)。

RDMA 可在不涉及計算機操作系統(tǒng)的情況下,從一個計算機訪問另一臺計算機的內(nèi)存。此技術啟用了高吞 吐量和低延遲聯(lián)網(wǎng),且 CPU 使用率較低。 在典型的 IP 數(shù)據(jù)傳輸中,當機器中的某個應用程序向另一臺機器上的應用程序發(fā)送數(shù)據(jù)時,在接收層時會出現(xiàn)以下情況:

1、內(nèi)核必須接收數(shù)據(jù)。

2、內(nèi)核必須確定該數(shù)據(jù)是否屬于該應用程序。

3、內(nèi)核喚醒應用程序。

4、內(nèi)核會等待應用程序執(zhí)行系統(tǒng)調(diào)用到內(nèi)核。

5、應用程序?qū)?nèi)核本身的內(nèi)部內(nèi)存空間數(shù)據(jù)復制到應用程序提供的緩沖中。

這個過程意味著,如果主機適配器使用直接內(nèi)存訪問(DMA),或者至少兩次,則大多數(shù)網(wǎng)絡流量會被復制 到系統(tǒng)的主內(nèi)存中。另外,計算機執(zhí)行很多上下文開關以在內(nèi)核和應用程序上下文間進行切換。這些上下 文切換都可能造成高流量率的 CPU 負載,并可能造成其他任務的性能下降。 RDMA 通訊會繞過內(nèi)核在溝通過程中的干預,這和普通的 IP 通訊不同這可減少 CPU 開銷。RDMA 協(xié)議 讓主機適配器知道數(shù)據(jù)包何時來自網(wǎng)絡,應用程序應該接收它,并在應用程序的內(nèi)存空間中保存數(shù)據(jù)包。對于 InfiniBand,主機適配器不將數(shù)據(jù)包發(fā)送到內(nèi)核,然后將其復制到用戶應用程序的內(nèi)存中,而是,主機適 配器將數(shù)據(jù)包的內(nèi)容直接放置在應用程序的緩沖中。此過程需要單獨的 API、InfiniBand Verbs API,應用 程序必須支持這個API才能使用 RDMA。 Red Hat Linux同時支持 InfiniBand 硬件和 InfiniBand Verbs API。另外,Red Hat Enterprise Linux 支持以下技術,以便在非 InfiniBand 硬件中使用 InfiniBand Verbs API:

互聯(lián)網(wǎng)廣域 RDMA 協(xié)議(iWARP):通過 IP 網(wǎng)絡實施 RDMA 的網(wǎng)絡協(xié)議。

RDMA over Converged Ethernet(RoCE),也稱為以太網(wǎng)的 InfiniBand(IBoE):通過以太網(wǎng)實現(xiàn) RDMA 的網(wǎng)絡協(xié)議。

02配置 ROCE

比如 Mellanox、Broadcom 和 QLogic 都提供 RoCE 硬件。 RoCE 是一種網(wǎng)絡協(xié)議,可實現(xiàn)通過以太網(wǎng)的遠程直接訪問(RDMA)。以下是不同的 RoCE 版本:

RoCE v1

RoCE 版本 1 協(xié)議是帶有 ethertype 0x8915 的以太網(wǎng)鏈路層協(xié)議,它允許同一以太網(wǎng)廣播域中任何兩個主機之間進行通信。 默認情況下,在使用 Mellanox ConnectX-3 網(wǎng)絡適配器時,Red Hat Enterprise Linux 使用 RoCE v1 作為 RDMA 連接管理器(RDMA_CM)。

RoCE v2

RoCE 版本 2 協(xié)議在 IPv4 或 IPv6 協(xié)議的 UDP 上存在。RoCE v2 保留 UDP 目標端口號 4791。默認情況下,在使用 Mellanox ConnectX-3 Pro、ConnectX-4 Lx 或 ConnectX-5 網(wǎng)絡適配器時,Red Hat Enterprise Linux將RoCE v2 用于 RDMA_CM,但硬件支持 RoCE v1 和 RoCE v2。 RDMA_CM 設置客戶端和服務器之間用來傳輸數(shù)據(jù)的可靠連接。RDMA_CM 為建立連接提供了一個與 RDMA 傳輸相關的接口。該通信使用特定的 RDMA 設備,數(shù)據(jù)傳輸是基于消息的。 在客戶端使用 RoCE v2,在服務器使用 RoCE v1 不被支持。在這種情況下,將服務器和客戶端都配置為通過 RoCE v1 進行通信。 不支持在客戶端和服務器上的 RoCE v1 使用 RoCE v2 協(xié)議。如果您的服務器中硬件只支持 RoCE v1,請將 您的客戶端配置為使用 RoCE v1 與服務器通信。這部分論述了如何在將 mlx5_0驅(qū)動程序用于 Mellanox ConnectX-5 Infiniband 設備的客戶端上強制實施 RoCE v1。 Soft-RoCE 是 RDMA over Ethernet 的一個軟件實現(xiàn),它也稱為 RXE。在沒有 RoCE 主機頻道適配器(HCA)的主機上使用 Soft-RoCE。 Soft-RoCE 功能僅作為技術預覽提供。紅帽產(chǎn)品服務級別協(xié)議(SLA)不支持技術預覽功 能,且其功能可能并不完善,因此紅帽不建議在生產(chǎn)環(huán)境中使用它們。

03配置核心RDMA子系統(tǒng)

默認情況下,內(nèi)核命名 IP over InfiniBand(IPoIB)設備,如 ib0,ib1 等。為避免沖突,紅帽建議在 udev 設 備管理器中創(chuàng)建一條規(guī)則來創(chuàng)建持久且有意義的名稱,如 mlx4_ib0。 RDMA 操作需要固定物理內(nèi)存。這意味著內(nèi)核不允許把內(nèi)存寫入到 swap 空間中。如果用戶固定太多內(nèi) 存,系統(tǒng)會耗盡內(nèi)存,并且內(nèi)核會終止進程來釋放更多內(nèi)存。因此,內(nèi)存固定是一個特權操作。如果非 root 用戶運行大型 RDMA 應用程序,則可能需要增加這些用戶可在系統(tǒng)中的內(nèi)存量。這部分論述 了如何為 rdma 組配置無限內(nèi)存。 配置RDMA服務,rdma 服務在內(nèi)核中管理RDMA堆棧。如果Red Hat Enterprise Linux 檢測到 InfiniBand、iWARP 或 RoCE 設備,udev 設備管理器會指示 systemd 啟動 rdma 服務。

04配置InfiniBand子網(wǎng)管理器

所有 InfiniBand 網(wǎng)絡都必須運行子網(wǎng)管理器才能正常工作。即使兩臺機器沒有使用交換機直接進行連接, 也是如此。有可能有一個以上的子網(wǎng)管理器。在那種情況下,當主子網(wǎng)管理器出現(xiàn)故障時,另外一個作為從網(wǎng)管理器 的系統(tǒng)會接管。大多數(shù) InfiniBand 交換機都包含一個嵌入式子網(wǎng)管理器。 但是,如果您需要一個更新的子網(wǎng)管理器,需使用 Red Hat Enterprise Linux 提供的 OpenSM 子網(wǎng)管理器。

05配置 IPOIB

默認情況下,InfiniBand 不使用 IP 進行通信。但是,IP over InfiniBand(IPoIB)在 InfiniBand 遠程直接訪問(RDMA)網(wǎng)絡之上提供一個 IP 網(wǎng)絡模擬層。這允許現(xiàn)有未經(jīng)修改的應用程序通過 InfiniBand 網(wǎng)絡傳輸數(shù) 據(jù),但性能低于應用程序原生使用 RDMA 時的數(shù)據(jù)。 互聯(lián)網(wǎng)廣域 RDMA 協(xié)議(iWARP)和 RoCE 網(wǎng)絡已基于 IP。因此,您不能在 IWARP 或 RoCE 設備之上創(chuàng)建 IPoIB 設備。Mellanox 設備從 ConnectX-4 及更高版本開始,默認使用 Enhanced IPoIB 模式(僅限數(shù) 據(jù)報)。這些設備不支持連接的模式。 IPOIB通訊模式,在Datagram或Connected模式下配置 IPoIB 設備。不同之處在,IPoIB 層試圖使用什么類型的隊列對在通信的另一端的機器中打開: 在Datagram模式中,系統(tǒng)打開了一個不可靠、斷開連接的隊列對。這個模式不支持大于 InfiniBand link-layer 的最大傳輸單元(MTU)的軟件包。IPoIB 層在傳輸?shù)?IP 數(shù)據(jù)包之上添加了一個 4 字節(jié) IPoIB 標頭。因此,IPoIB MTU 需要比 InfiniBand link-layer MTU 小 4 字節(jié)。因為 2048 是一個常見的 InfiniBand 鏈路層 MTU,數(shù)據(jù)數(shù)報模式中常見的 IPoIB 設備 MTU 是 2044。 在Connected模式中,系統(tǒng)會打開一個可靠、連接的隊列對。此模式允許大于 InfiniBand 鏈路層 MTU 的消息,主機適配器處理數(shù)據(jù)包分段和重新傳輸。因 此,InfiniBand 適配器以Connected模式發(fā)送的 IPoIB 信息大小沒有限制。但是,IP 數(shù)據(jù)包會受size字段和 TCP/IP 標頭的限制。因此,Connected模式中的 IPoIB MTU 最大為65520字節(jié)。 連接 模式模 的性能更高,但消耗的內(nèi)核內(nèi)存更多。 如果系統(tǒng)被配置為使用Connected模式,它仍然會以Datagram模式發(fā)送多播流量,因為 InfiniBand 交換機和光纖無法在Connected模式下傳遞多播流量。另外,當與任何未在Connected模式中配置的主 機通信時,系統(tǒng)將返回Datagram模式。 在運行將多播數(shù)據(jù)發(fā)送到接口上最大 MTU 的應用程序時,您必須將接口配置為Datagram模式,或者將應用程序配置為以數(shù)據(jù)包大小數(shù)據(jù)包的大小封頂數(shù)據(jù)包發(fā)送的大小。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機
    +關注

    關注

    19

    文章

    7807

    瀏覽量

    93203
  • 操作系統(tǒng)

    關注

    37

    文章

    7402

    瀏覽量

    129313
  • RDMA
    +關注

    關注

    0

    文章

    99

    瀏覽量

    9617

原文標題:關于InfiniBand和RDMA網(wǎng)絡配置實踐

文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何安全遠程訪問Clawdbot?貝銳蒲公英SD-WAN異地組網(wǎng)實戰(zhàn)指南

    直接實現(xiàn)Clawdbot(現(xiàn)OpenClaw)本地控制臺的遠程訪問,但傳統(tǒng)的遠程訪問方案往往繞不開公網(wǎng)IP映射或復雜的內(nèi)網(wǎng)穿
    的頭像 發(fā)表于 01-30 16:53 ?1062次閱讀
    如何安全<b class='flag-5'>遠程</b><b class='flag-5'>訪問</b>Clawdbot?貝銳蒲公英SD-WAN異地組網(wǎng)實戰(zhàn)指南

    本地智能家居系統(tǒng)ESPHome,實現(xiàn)遠程訪問調(diào)試

    ESPHome 是一個開源固件框架,支持通過 YAML 配置實現(xiàn)智能家居自動化,可本地部署并公網(wǎng)訪問,便于遠程開發(fā)。
    的頭像 發(fā)表于 12-30 14:48 ?1258次閱讀
    本地智能家居系統(tǒng)ESPHome,實現(xiàn)<b class='flag-5'>遠程</b><b class='flag-5'>訪問</b>調(diào)試

    如何確保電能質(zhì)量在線監(jiān)測裝置遠程配置通信參數(shù)的安全性?

    遠程配置通信參數(shù)的核心安全風險包括: 未授權訪問、傳輸數(shù)據(jù)竊聽 / 篡改、配置誤操作、設備仿冒接入 等。需通過 “身份認證、傳輸加密、權限管控、操作審計、
    的頭像 發(fā)表于 12-17 16:40 ?1141次閱讀
    如何確保電能質(zhì)量在線監(jiān)測裝置<b class='flag-5'>遠程</b><b class='flag-5'>配置</b>通信參數(shù)的安全性?

    電能質(zhì)量在線監(jiān)測裝置能遠程配置通信參數(shù)嗎?

    ≥1000 元)。 一、遠程配置的實現(xiàn)方式 實現(xiàn)途徑 適用場景 典型操作方式 Web 界面 局域網(wǎng) / 公網(wǎng)可訪問 通過瀏覽器輸入裝置 IP,登錄后在 "系統(tǒng)設置 - 通訊設置" 中修改 上位機軟件 本地 /
    的頭像 發(fā)表于 12-12 16:01 ?401次閱讀
    電能質(zhì)量在線監(jiān)測裝置能<b class='flag-5'>遠程</b><b class='flag-5'>配置</b>通信參數(shù)嗎?

    對于設備上的舊固件如何進行備份和恢復?

    對于設備上的舊固件,如何進行備份和恢復?
    發(fā)表于 12-12 08:23

    在使用CW32L083系列微控制器時如何進行系統(tǒng)復位和看門狗定時器配置?

    在使用CW32L083系列微控制器時,如何進行系統(tǒng)復位和看門狗定時器配置?
    發(fā)表于 12-10 06:46

    內(nèi)網(wǎng)穿透:從原理到實戰(zhàn)部署

    本文介紹了內(nèi)網(wǎng)穿透技術的原理及其應用解決方案。由于NAT網(wǎng)絡和動態(tài)IP的限制,外部無法直接訪問內(nèi)網(wǎng)設備。內(nèi)網(wǎng)穿透通過公網(wǎng)中轉(zhuǎn)服務器建立連接通道,實現(xiàn)外部訪問內(nèi)網(wǎng)服務。文章詳細講解了ZeroNews
    的頭像 發(fā)表于 11-04 16:57 ?1451次閱讀
    內(nèi)網(wǎng)穿透:從原理到實戰(zhàn)部署

    能源監(jiān)測管理平臺支持手機端遠程訪問

    能源監(jiān)測管理平臺普遍支持手機端遠程訪問 ,用戶可通過手機APP或網(wǎng)頁端實時查看能耗數(shù)據(jù)、設備狀態(tài)及報警信息,實現(xiàn)遠程監(jiān)控與管理。以下為具體說明: 一、手機端遠程
    的頭像 發(fā)表于 09-30 11:48 ?404次閱讀
    能源監(jiān)測管理平臺支持手機端<b class='flag-5'>遠程</b><b class='flag-5'>訪問</b>嗎

    【NCS隨筆】如何進入system_off深度睡眠模式以及配置GPIO中斷喚醒

    【NCS隨筆】如何進入system_off深度睡眠模式以及配置GPIO中斷喚醒 本文章主要是講解NCS下面使用nRF54L15如何進入system_off模式,以及如何配置通過按鍵喚醒
    的頭像 發(fā)表于 09-29 00:56 ?758次閱讀
    【NCS隨筆】如<b class='flag-5'>何進</b>入system_off深度睡眠模式以及<b class='flag-5'>配置</b>GPIO中斷喚醒

    遠程訪問NAS不折騰,輕松獲取固定訪問地址!

    。 傳統(tǒng)方案通常需要公網(wǎng)IP或復雜的路由器設置,不僅成本高且操作繁瑣。 ZeroNews 無需公網(wǎng)IP、免配置路由器,三步即可實現(xiàn)NAS的遠程訪問。 簡易配置,快速生成固定
    的頭像 發(fā)表于 09-02 19:20 ?860次閱讀
    <b class='flag-5'>遠程</b><b class='flag-5'>訪問</b>NAS不折騰,輕松獲取固定<b class='flag-5'>訪問</b>地址!

    多臺IR615如何通過vpn進行遠程管理?

    現(xiàn)有多臺IR615路由器,希望將其配置為vpn客戶端,連接云服務器的vpn服務端 工程師遠程連接云服務器對IR615進行管理 在IR615中可以選用哪種vpn協(xié)議?如何進行
    發(fā)表于 08-06 07:21

    禁用直接LPB訪問,如何與TC3x 上的 SWAPEN 協(xié)同工作?

    禁用直接 LPB 訪問 (xDDIS) 位可通過 TC37x 的 FLASHCON4 和 PROCONTP 進行配置。在 SOTA 場景中,我們應該如何
    發(fā)表于 07-29 10:26

    遠程訪問內(nèi)網(wǎng)MySQL數(shù)據(jù)庫?這個方案更簡單

    ,開發(fā)者和運維人員趕緊看過來! 為什么需要這樣做? 遠程辦公必備:無需 VPN,在家或外出時也能輕松連接公司內(nèi)網(wǎng)數(shù)據(jù)庫 靈活開發(fā)測試:開發(fā)人員可遠程連接本地數(shù)據(jù)庫進行調(diào)試,提高協(xié)作效率 數(shù)據(jù)安全保障:通過 ZeroNews 的安
    的頭像 發(fā)表于 07-04 18:06 ?871次閱讀
    <b class='flag-5'>遠程</b><b class='flag-5'>訪問</b>內(nèi)網(wǎng)MySQL數(shù)據(jù)庫?這個方案更簡單

    10萬用戶見證!樹莓派 Connect 正式版發(fā)布:遠程訪問功耗直降50%!

    樹莓派官方宣布其遠程連接服務RaspberryPiConnect正式結(jié)束測試階段:優(yōu)化后的遠程訪問功能更簡單、更強大!
    的頭像 發(fā)表于 05-12 15:49 ?992次閱讀
    10萬用戶見證!樹莓派 Connect 正式版發(fā)布:<b class='flag-5'>遠程</b><b class='flag-5'>訪問</b>功耗直降50%!

    使用CAN以及CANIF配置了S32K310的CAN驅(qū)動模塊,如何進行報文的接收呢?

    我使用CAN以及CANIF配置了S32K310的CAN驅(qū)動模塊。我知道調(diào)用CAN_Write()函數(shù)進行報文的發(fā)送,但我存有以下的一些問題: 1.我該如何進行報文的接收呢?我看到有一些文章說能夠通過
    發(fā)表于 03-21 07:24