91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Dynamo新增對(duì)亞馬遜云科技服務(wù)的支持

NVIDIA英偉達(dá) ? 來源:NVIDIA英偉達(dá) ? 2025-07-28 14:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

亞馬遜云科技 (AWS) 開發(fā)者和解決方案架構(gòu)師現(xiàn)在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用NVIDIA Dynamo,包括由 NVIDIA Blackwell 加速的 Amazon EC2 P6,并添加了對(duì) Amazon Simple Storage (S3) 的支持,此外還有與 Amazon Elastic Kubernetes Services (EKS) 和 AWS Elastic Fabric Adapter (EFA) 的現(xiàn)有集成。此次更新將大規(guī)模部署大語(yǔ)言模型 (LLM) 的性能、可擴(kuò)展性和成本效益提升到了新的水平。

NVIDIA Dynamo 擴(kuò)展并服務(wù)于生成式 AI

NVIDIA Dynamo 是專為大規(guī)模分布式環(huán)境打造的開源推理服務(wù)框架。它支持所有主流推理框架,例如 PyTorch、SGLang、TensorRT-LLM 和 vLLM,并包含高級(jí)優(yōu)化功能,例如:

分離服務(wù):在不同的 GPU 上分離預(yù)填充和解碼推理階段,以提高吞吐量。

LLM 感知路由:通過路由請(qǐng)求,以更大限度地提高 KV 緩存命中率,并避免重復(fù)計(jì)算成本。

KV 緩存卸載:將 KV 緩存卸載至經(jīng)濟(jì)高效的內(nèi)存層級(jí)中,以降低推理成本。

這些功能使 NVIDIA Dynamo 能夠?yàn)榇笠?guī)模多節(jié)點(diǎn)的 LLM 部署提供出色的推理性能和成本效益。

與亞馬遜云科技服務(wù)無縫集成

對(duì)于在 AWS 云上部署 LLM 的 AWS 開發(fā)者和解決方案架構(gòu)師,Dynamo 將無縫集成到您現(xiàn)有的推理架構(gòu)中:

Amazon S3:Dynamo NIXL 現(xiàn)在支持 Amazon S3,這是一種對(duì)象存儲(chǔ)服務(wù),可提供幾乎無限的可擴(kuò)展性、高性能和低成本。

計(jì)算 KV 緩存需要大量資源且成本高昂。通常會(huì)重復(fù)使用緩存值而不是重新計(jì)算。但是,隨著 AI 工作負(fù)載的增長(zhǎng),重用所需的 KV 緩存量可能會(huì)迅速超過 GPU 甚至主機(jī)顯存。通過將 KV 緩存卸載到 S3,開發(fā)者可以釋放寶貴的 GPU 顯存來處理新請(qǐng)求。這種集成減輕了開發(fā)者構(gòu)建自定義插件的負(fù)擔(dān),使他們能夠?qū)?KV 緩存無縫卸載到 S3,從而降低總體推理成本。

Amazon EKS:Dynamo 在 Amazon EKS 上運(yùn)行,這是一種完全托管的 Kubernetes 服務(wù),使開發(fā)者能夠運(yùn)行和擴(kuò)展容器化應(yīng)用程序,而無需管理 Kubernetes 基礎(chǔ)設(shè)施。

隨著 LLM 的規(guī)模和復(fù)雜性不斷增加,生產(chǎn)環(huán)境中的推理部署現(xiàn)在需要高級(jí)組件,例如可感知 LLM 的請(qǐng)求路由、分離服務(wù)和 KV 緩存卸載。這些緊密集成的組件增加了在 Kubernetes 環(huán)境中部署的復(fù)雜性。借助這種支持,開發(fā)者可以將 Dynamo 無縫部署到由 EKS 管理的 Kubernetes 集群中,使他們能夠按需快速啟動(dòng)新的 Dynamo 副本,以處理推理工作負(fù)載的突發(fā)增長(zhǎng)。

3f3b9ffe-6878-11f0-a6aa-92fbcf53809c.jpg

圖 1:使用 Amazon EKS 的 AWS 部署架構(gòu)上的 Dynamo

AWS Elastic Fabric Adapter (EFA):Dynamo 的 NIXL 數(shù)據(jù)傳輸庫(kù)支持 Amazon 的 EFA,這是一個(gè)在 Amazon EC2 實(shí)例之間提供低延遲節(jié)點(diǎn)間通信的網(wǎng)絡(luò)接口

隨著 LLM 規(guī)模的擴(kuò)大并采用稀疏混合專家模型架構(gòu),跨多個(gè) GPU 進(jìn)行分片可在保持低延遲的同時(shí)提高吞吐量。在這些部署中,針對(duì)在 AWS 上運(yùn)行的工作負(fù)載,使用 EFA 跨 GPU 節(jié)點(diǎn)傳輸推理數(shù)據(jù)。借助 Dynamo 的 EFA 支持,開發(fā)者可以通過 NIXL 的前端 API 使用簡(jiǎn)單的 get、push 和 delete 命令,在節(jié)點(diǎn)之間輕松移動(dòng) KV 緩存。這樣一來,無需自定義插件即可訪問 Dynamo 的高級(jí)功能(如分離服務(wù)),加速 AI 應(yīng)用的生產(chǎn)時(shí)間。

在 Blackwell 驅(qū)動(dòng)的 Amazon P6 實(shí)例上

使用 Dynamo 優(yōu)化推理

Dynamo 與任何 NVIDIA GPU 加速的亞馬遜云科技實(shí)例兼容,但與由 Blackwell 提供支持的 Amazon EC2 P6 實(shí)例搭配使用時(shí),可顯著提升部署 DeepSeek R1 和最新 Llama 4 等高級(jí)邏輯推理模型時(shí)的性能。Dynamo 通過管理預(yù)填充和解碼自動(dòng)縮放以及速率匹配等關(guān)鍵任務(wù),簡(jiǎn)化并自動(dòng)處理分離 MoE 模型的復(fù)雜部署流程。

同時(shí),Amazon P6-B200 實(shí)例具有第五代 Tensor Core、FP4 加速和 2 倍于上一代的 NVIDIA NVLink 帶寬,而由 NVIDIA提供支持的 P6e-GB200 Ultra 服務(wù)器具有獨(dú)特的擴(kuò)展架構(gòu),可提供 130 TBps 的聚合全互聯(lián)帶寬,旨在加速混合專家模型 (MoE) 部署中廣泛采用的專家并行解碼操作所需的密集型通信模式。Dynamo 和 P6 驅(qū)動(dòng)的 Blackwell 實(shí)例相結(jié)合,可提高 GPU 利用率,提高每美元的請(qǐng)求吞吐量,并推動(dòng)生產(chǎn)級(jí) AI 工作負(fù)載的利潤(rùn)可持續(xù)增長(zhǎng)。

開始使用 NVIDIA Dynamo

深化 Dynamo 與亞馬遜云科技的集成可幫助開發(fā)者無縫擴(kuò)展其推理工作負(fù)載。

NVIDIA Dynamo 可在任何 NVIDIA GPU 加速的亞馬遜云科技實(shí)例上運(yùn)行。部署 NVIDIA Dynamo,即刻開始優(yōu)化推理堆棧:https://github.com/ai-dynamo/dynamo。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5592

    瀏覽量

    109716
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5194

    瀏覽量

    135427
  • 亞馬遜
    +關(guān)注

    關(guān)注

    8

    文章

    2731

    瀏覽量

    85735
  • kubernetes
    +關(guān)注

    關(guān)注

    0

    文章

    263

    瀏覽量

    9494

原文標(biāo)題:NVIDIA Dynamo 新增對(duì)亞馬遜云科技服務(wù)的支持,可大規(guī)模提供經(jīng)濟(jì)高效的推理

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Proteintech選擇亞馬遜科技為首選服務(wù)商,構(gòu)建行業(yè)首個(gè)AI抗體助手加速科研創(chuàng)新

    商,基于亞馬遜科技的計(jì)算、容器、數(shù)據(jù)庫(kù)和分析等計(jì)算服務(wù),僅歷時(shí)六個(gè)月成功構(gòu)建業(yè)內(nèi)首款A(yù)I抗體助手Able,可為全球科研人員提供精準(zhǔn)、高效的產(chǎn)品信息與技術(shù)
    的頭像 發(fā)表于 01-05 11:14 ?415次閱讀

    亞馬遜科技擴(kuò)展模型選擇 Amazon Bedrock新增18款開放權(quán)重模型

    亞馬遜科技在2025 re:Invent全球大會(huì)上宣布在Amazon Bedrock中新增18款開放權(quán)重模型,進(jìn)一步強(qiáng)化其提供廣泛全托管模型選擇的承諾。Amazon Bedrock使客戶能夠
    的頭像 發(fā)表于 12-13 13:53 ?769次閱讀

    破局全球化IT挑戰(zhàn):中宇聯(lián)以亞馬遜科技服務(wù)賦能制造行業(yè)數(shù)字化轉(zhuǎn)型

    +AI”服務(wù)平臺(tái),為企業(yè)客戶提供從架構(gòu)設(shè)計(jì)、遷移實(shí)施、智能運(yùn)維到持續(xù)優(yōu)化的端到端管理服務(wù)。近年來,中宇聯(lián)積極拓展與全球計(jì)算領(lǐng)袖
    的頭像 發(fā)表于 11-13 10:35 ?508次閱讀

    亞馬遜科技推出Amazon Quick Suite,引領(lǐng)Agentic AI驅(qū)動(dòng)的工作新范式

    與內(nèi)網(wǎng))、主流應(yīng)用(如Salesforce與Slack)、亞馬遜科技服務(wù)(如Amazon S3與Amazon Redshift)在內(nèi)的多種數(shù)據(jù)源,并通過MCP集成接入超過
    的頭像 發(fā)表于 10-10 14:50 ?823次閱讀

    Dynamo 0.4在NVIDIA Blackwell上通過PD分離將性能提升4倍

    近期,OpenAI 的 gpt-oss、月之暗面的 Kimi K2 等多個(gè)新的前沿開源模型相繼問世,標(biāo)志著大語(yǔ)言模型 (LLM) 創(chuàng)新浪潮的加速。近日發(fā)布的 Dynamo 0.4 提供了一系列新功能
    的頭像 發(fā)表于 08-22 15:59 ?1425次閱讀
    <b class='flag-5'>Dynamo</b> 0.4在<b class='flag-5'>NVIDIA</b> Blackwell上通過PD分離將性能提升4倍

    亞馬遜科技現(xiàn)已上線OpenAI開放權(quán)重模型

    客戶現(xiàn)可通過Amazon Bedrock和Amazon SageMaker AI使用OpenAI開放權(quán)重模型,實(shí)現(xiàn)將先進(jìn)的開放權(quán)重模型與全球最廣泛服務(wù)的深度集成。 亞馬遜科技首次上
    的頭像 發(fā)表于 08-06 19:29 ?843次閱讀

    亞馬遜科技在2025紐約峰會(huì)發(fā)布多項(xiàng)AI agent創(chuàng)新

    七大核心服務(wù),幫助企業(yè)大規(guī)模、安全部署與運(yùn)行AI agents 亞馬遜科技Marketplace新增多項(xiàng)產(chǎn)品,助力企業(yè)發(fā)現(xiàn)、采購(gòu)并部署領(lǐng)先的AI agents和工具 向
    的頭像 發(fā)表于 07-17 16:06 ?851次閱讀
    <b class='flag-5'>亞馬遜</b><b class='flag-5'>云</b>科技在2025紐約峰會(huì)發(fā)布多項(xiàng)AI agent創(chuàng)新

    2025 NVIDIA創(chuàng)業(yè)企業(yè)展示澳門站圓滿收官

    2025 技術(shù)精華解讀、亞馬遜科技 AI Agent 智能化應(yīng)用分享、圓桌討論和項(xiàng)目路演、大企業(yè)對(duì)接、以及第三屆 NVIDIA DPU 中國(guó)黑客松競(jìng)賽啟動(dòng)等環(huán)節(jié)。本次活動(dòng)由澳門永利渡假村、創(chuàng)賽創(chuàng)新中心聯(lián)合主辦,
    的頭像 發(fā)表于 05-29 14:12 ?931次閱讀

    亞馬遜科技與倫敦證券交易所集團(tuán)擴(kuò)展多年合作關(guān)系

    )業(yè)務(wù)部門的首選服務(wù)提供商。此次協(xié)議的簽署標(biāo)志著雙方現(xiàn)有合作伙伴關(guān)系的進(jìn)一步深化。 ? 通過將內(nèi)部系統(tǒng)遷移至亞馬遜科技,倫敦證券交易所集團(tuán)將進(jìn)一步提升其運(yùn)營(yíng)的韌性和安全性,并在此基
    發(fā)表于 05-07 14:00 ?484次閱讀

    亞馬遜科技新增北京本地專用區(qū)域 與四維圖新深化合作賦能汽車智能化

    上海 ——2025 年 4 月 23 日 在2025亞馬遜科技汽車行業(yè)峰會(huì)期間,亞馬遜科技宣布,由光環(huán)新網(wǎng)運(yùn)營(yíng)的北京本地專用區(qū)域(Local Zones)正式可用,可以
    發(fā)表于 04-29 14:20 ?814次閱讀

    四維圖新亮相2025亞馬遜科技中國(guó)汽車行業(yè)峰會(huì)

    近日,在2025亞馬遜科技中國(guó)汽車行業(yè)峰會(huì)期間,亞馬遜科技宣布,由光環(huán)新網(wǎng)運(yùn)營(yíng)的北京本地專用區(qū)域(Local Zones)正式可用,可以支持
    的頭像 發(fā)表于 04-25 16:27 ?922次閱讀

    亞馬遜科技發(fā)布“3+2”合作伙伴戰(zhàn)略 與合作伙伴加速前行

    科技Marketplace和合作伙伴網(wǎng)絡(luò)系列支持計(jì)劃,持續(xù)賦能合作伙伴實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新與規(guī)?;鲩L(zhǎng)。同時(shí),亞馬遜科技與德勤中國(guó)發(fā)布生成式AI勤智企業(yè)智能體工坊,賦能企業(yè)實(shí)現(xiàn)從概念到生成式AI應(yīng)用的快速落地。
    發(fā)表于 04-25 14:43 ?1011次閱讀
    <b class='flag-5'>亞馬遜</b><b class='flag-5'>云</b>科技發(fā)布“3+2”合作伙伴戰(zhàn)略 與合作伙伴加速前行

    NVIDIA攜手谷歌助力企業(yè)引入代理式AI

    谷歌 Gemini 模型即將支持本地部署,可通過搭載 NVIDIA Blackwell 架構(gòu)的基礎(chǔ)設(shè)施,在 Google 分布式上運(yùn)行 NVIDIA 機(jī)密計(jì)算。
    的頭像 發(fā)表于 04-11 16:32 ?1206次閱讀

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫(kù)加速并擴(kuò)展AI推理模型

    Triton 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)軟件,旨在為部署推理 AI 模型的 AI 工廠最大化其 token 收益。它協(xié)調(diào)并加速數(shù)千
    的頭像 發(fā)表于 03-20 15:03 ?1231次閱讀

    Raksmart服務(wù)器如何支持AIGC創(chuàng)作

    為了支持AIGC創(chuàng)作的高效運(yùn)行,高性能的服務(wù)器成為不可或缺的基礎(chǔ)設(shè)施。Raksmart作為一家領(lǐng)先的服務(wù)提供商,憑借其強(qiáng)大的計(jì)算能力、靈
    的頭像 發(fā)表于 03-12 11:32 ?709次閱讀