如今的數(shù)據(jù)中心承載著許多用戶和各種應用,它們甚至已經(jīng)成為科研、技術(shù)和全球產(chǎn)業(yè)競爭優(yōu)勢的關(guān)鍵因素。隨著科學計算復雜性的增加,數(shù)據(jù)中心的運營成本也在不斷上升。除了要防止運營安全隱患的干擾外,保持數(shù)據(jù)中心的完整和平滑運行也至關(guān)重要。
更重要的是,惡意用戶可能會利用數(shù)據(jù)中心的訪問權(quán)限,運行被禁止的應用,濫用計算資源,進而導致意外停機以及更高的運營成本。對于今天的 IT 經(jīng)理和支持開發(fā)者而言,能夠快速識別問題并提高效率的數(shù)據(jù)中心管理工具比以往任何時候都更加重要。
NVIDIA 以圖形處理能力和出色 GPU 計算性能而聞名,廣泛應用于各個研究領(lǐng)域。同時, NVIDIA 也是安全和可擴展數(shù)據(jù)中心技術(shù)的領(lǐng)導者,提供了各種靈活的庫和工具,來最大程度地優(yōu)化業(yè)界一流的基礎設施。
要為當今研究和商業(yè)領(lǐng)域最關(guān)鍵的組成部分提供全棧式解決方案,其中不僅包括提供一流的服務器平臺、GPU 以及部署在整個數(shù)據(jù)中心的豐富軟件組合,而且還需要關(guān)注到安全和可管理性是建立數(shù)據(jù)中心基礎設施的關(guān)鍵支柱。
NVIDIA UFM Cyber-AI
為 InfiniBand 數(shù)據(jù)中心帶來變革
NVIDIA Unified Fabric Manager(UFM)Cyber-AI 平臺提供增強的實時網(wǎng)絡遙測功能,并結(jié)合了 AI 智能和先進的分析技術(shù),讓 IT 經(jīng)理能夠發(fā)現(xiàn)運營異常,甚至預測網(wǎng)絡故障。這既提高了安全性和數(shù)據(jù)中心的正常運行時間,又降低了整體運營費用。
UFM Cyber-AI 的獨特優(yōu)勢在于它能夠捕獲豐富的遙測信息并采用 AI 技術(shù)來識別事件之間的隱形關(guān)聯(lián),從而檢測到異常的系統(tǒng)和應用行為,而且在引發(fā)組件或系統(tǒng)故障之前就能識別到性能的下降。UFM Cyber-AI 甚至可以實時采取修正措施。該平臺能夠?qū)W習數(shù)據(jù)中心的典型運行模式,并根據(jù)網(wǎng)絡遙測數(shù)據(jù)(包括流量模式、溫度等)檢測異常使用情況。
UFM Cyber-AI 基本原理
如UFM Cyber-AI 包含三個不同的層級。
輸入遙測:以多種方式從網(wǎng)絡中采集信息并學習:
網(wǎng)絡中各種元素的遙測信息
網(wǎng)絡拓撲結(jié)構(gòu)(租戶或應用的連接與資源分配)
網(wǎng)絡設備特性和功能
處理模型:包含若干模型,如:用于數(shù)據(jù)準備的提取、轉(zhuǎn)換和加載(ETL)處理引擎。它還包含用于對比的聚合、數(shù)據(jù)存儲和分析模型。UFM Cyber-AI 使用用于異常檢測和預測的機器學習(ML)技術(shù)和AI模型來學習數(shù)據(jù)中心網(wǎng)絡組件(線纜、交換機、端口、InfiniBand 網(wǎng)卡)的生命周期模式。
輸出 dashboard:一個顯示中央 dashboard 的可視化層,讓網(wǎng)絡管理員和云編排人員可以查看警報和建議,以提高網(wǎng)絡利用率和效率并解決網(wǎng)絡健康問題。dashboard 分為兩個主要類別:可疑行為和鏈接分析,每個類別都包含警報和預測部分。
UFM Cyber-AI
功能豐富、簡潔直觀的自定義網(wǎng)絡管理器
UFM Cyber-AI 還支持自定義網(wǎng)絡警報,或查看隨時間變化的異常情況,以及不同時間維度情況。通過使用基于小時或星期參數(shù)的聚合網(wǎng)絡統(tǒng)計數(shù)據(jù),可基于可能偏離正常操作使用的測量結(jié)果來設置閾值和配置通知。例如可以使用預定義閾值來識別有問題的線纜。
內(nèi)置分析功能將當前的遙測信息與基于時間的匯總信息進行比較,以檢測系統(tǒng)使用或流量模式中任何可疑的增加或減少并立即通知系統(tǒng)管理員。UFM Cyber-AI 還通過鏈路或端口遙測信息提供數(shù)據(jù)中心租戶或應用警報,并識別與底層 PKEY 相關(guān)的統(tǒng)計數(shù)據(jù)及其相關(guān)節(jié)點。
目前只有 UFM Cyber-AI 提供支持預測性維護的鏈路故障預測等功能。通過在早期階段監(jiān)測性能下降情況,UFM Cyber-AI 可以預測潛在的鏈路或端口故障,使管理員能夠進行及時維護進而規(guī)避數(shù)據(jù)中心的故障停機。
NVIDIA Morpheus 賦能未來
要為 InfiniBand 帶來最強大的網(wǎng)絡管理解決方案,就必須通過不斷創(chuàng)新來應對當今數(shù)據(jù)中心管理的復雜性。NVIDIA 計劃將 NVIDIA Morpheus 與 UFM Cyber-AI(圖 3)進行集成,以從其他數(shù)據(jù)中心元件中獲取更多遙測信息,例如基于服務器或機架的組件遙測或 DPU、GPU 和應用計數(shù)器。
我們甚至可以提供一個可以直接與 Kafka(一個用于高性能數(shù)據(jù)流水線、流分析和數(shù)據(jù)整合的開源分布式事件流平臺)等其他 API 對接的附加層。用戶可以使用該集成對開發(fā)者定義的操作系統(tǒng)異常進行特定檢測,例如在一個專門用于生命科學研究的系統(tǒng)上進行加密挖掘檢測。
Morpheus 是一個為網(wǎng)絡安全開發(fā)者提供高度優(yōu)化 AI 流水線和預訓練 AI 功能的開放 AI 應用框架。這些功能能夠即時檢查整個數(shù)據(jù)中心架構(gòu)中的所有網(wǎng)絡流量。Morpheus 通過提供以下功能將數(shù)據(jù)中心的安全提升到全新的水平:
動態(tài)保護
實時遙測
自適應策略
用于檢測和處理網(wǎng)絡安全威脅的網(wǎng)絡防御措施
隨著 Morpheus 與 UFM Cyber-AI 設備的集成,NVIDIA 可以提供出色、完整的解決方案,為關(guān)鍵數(shù)據(jù)中心提高靈活性和可擴展性,并為開發(fā)者提供支持。通過自定義異常檢測和與其他標準化 API 的對接,UFM Cyber-AI 可以成為任何多租戶數(shù)據(jù)中心或云原生基礎設施的一項靈活資產(chǎn)。
編輯:jq
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5598瀏覽量
109807
原文標題:使用 NVIDIA UFM Cyber-AI 安全、智能地管理數(shù)據(jù)中心
文章出處:【微信號:murata-eetrend,微信公眾號:murata-eetrend】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
1分鐘帶你了解數(shù)據(jù)中心供電架構(gòu) #電子元器件 #數(shù)據(jù)中心 #供電架構(gòu)
華為星河AI高算效數(shù)據(jù)中心網(wǎng)絡亮相ODCC 2025
Cadence 借助 NVIDIA DGX SuperPOD 模型擴展數(shù)字孿生平臺庫,加速 AI 數(shù)據(jù)中心部署與運營
華為數(shù)字能源亮相2025開放數(shù)據(jù)中心大會
睿海光電:400G光模塊技術(shù)創(chuàng)新與AI數(shù)據(jù)中心變革
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級
加速AI未來,睿海光電800G OSFP光模塊重構(gòu)數(shù)據(jù)中心互聯(lián)標準
華為面向拉美地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡方案
安森美攜手英偉達推動下一代AI數(shù)據(jù)中心發(fā)展
NVIDIA 800V HVDC 架構(gòu)賦能新一代AI數(shù)據(jù)中心 挑戰(zhàn)傳統(tǒng)機架電源系統(tǒng)極限
利用NVIDIA技術(shù)構(gòu)建從數(shù)據(jù)中心到邊緣的智慧醫(yī)院解決方案
施耐德電氣發(fā)布數(shù)據(jù)中心高密度AI集群部署解決方案
NVIDIA UFM Cyber-AI為InfiniBand數(shù)據(jù)中心帶來變革
評論