“首次價值實現(xiàn)時間”是 AI 開發(fā)領域最重要的指標之一。
AI 正在為所有人創(chuàng)造價值,從藥物發(fā)現(xiàn)領域的研究人員到應對金融市場變化的量化分析師均受益匪淺。
AI 系統(tǒng)生成“token”(用于串聯(lián)輸出結果的數(shù)據(jù)單元)的速度越快,其影響力就越大。這正是 AI 工廠的關鍵所在,它提供了從“首 token 時延”到“首次價值實現(xiàn)時間”的最高效路徑。
AI 工廠正在重新定義現(xiàn)代基礎設施的經濟學。它們通過大規(guī)模地將數(shù)據(jù)轉化為有價值的輸出內容(無論是 token、預測、圖像、蛋白質還是其他形式的內容)來生產智能。
AI 工廠有助于提升 AI 應用流程中的三個關鍵環(huán)節(jié):數(shù)據(jù)攝取、模型訓練和高吞吐量推理。通過三大核心技術棧(AI 模型、加速計算基礎設施和企業(yè)級軟件),AI 工廠能夠更快、更精準地生成 token。
下面將介紹 AI 工廠是如何幫助全球各地的企業(yè)把最寶貴的數(shù)字商品——數(shù)據(jù)轉化為創(chuàng)收潛力的。
從推理經濟學到價值創(chuàng)造
在構建 AI 工廠之前,理解推理經濟學至關重要,推理經濟學意味著如何平衡成本、能效和日益增長的 AI 需求。
吞吐量指模型可生成的 token 總量。延遲是模型在特定時間內輸出的 token 數(shù)量,通常以首 token 時延(用戶輸入提示后,模型生成第一個輸出 token 所需的時間)和“首 token 后,每個輸出 token 的時延”(生成每個額外 token 所需的時間)來衡量。有效吞吐量(Goodput)是一個較新的指標,用于衡量一個系統(tǒng)在滿足延遲目標的同時可交付的有用輸出量。
用戶體驗是所有軟件應用的關鍵所在,AI 工廠也不例外。高吞吐量意味著更智能的 AI,低延遲則確保了及時的響應。當這兩項指標實現(xiàn)合理平衡時,AI 工廠就可通過快速提供有用的輸出,帶來卓越的用戶體驗。
例如,響應時間為 0.5 秒的 AI 客服比 5 秒響應的 AI 客服更具吸引力和價值,即使兩者最終生成的 token 數(shù)量相同。
企業(yè)可借此機會為其推理輸出設定具有競爭力的價格,從而提升每個 token 的創(chuàng)收潛力。
衡量和可視化這種平衡頗具挑戰(zhàn),而這正是“帕累托”前沿概念的用武之地。
AI 工廠輸出:高效 Token 的價值
在規(guī)?;渴?AI 時,帕累托前沿有助于直觀地表明如何在沖突的目標(如快速響應與同時服務更多用戶)之間達到最優(yōu)的平衡。
縱軸代表給定能耗下的吞吐效率(單位為 TPS,也就是每秒 token 數(shù))。該數(shù)值越高,AI 工廠可同時處理的請求就越多。
橫軸表示單個用戶的 TPS,代表模型響應用戶給出首個提示的用時。該數(shù)值越高,預期的用戶體驗就越好。對于聊天機器人和實時分析工具等交互式應用,更低的延遲和快速的響應尤為重要。
帕累托前沿的最大值(顯示為曲線頂點)代表了特定運行配置下的最佳輸出。目標是為不同的 AI 工作負載和應用找到吞吐量與用戶體驗之間的最優(yōu)平衡。
頂尖的 AI 工廠通過加速計算來提升“每瓦 token 數(shù)”,即在優(yōu)化 AI 性能的同時大幅提高 AI 工廠和應用的能效。
以上展示的動畫對比了在NVIDIA Hopper GPU(配置為每用戶每秒 32 個 token)與NVIDIA Blackwell Ultra GPU(配置為每用戶每秒 344 個 token)上運行時的用戶體驗。在上述用戶體驗設置下,Blackwell Ultra 實現(xiàn)了 10 倍以上的體驗提升和近 5 倍的更高吞吐量,實現(xiàn)了最高達 50 倍的創(chuàng)收潛力。
AI 工廠的實際運行
AI 工廠是一個系統(tǒng),它包含了一套將數(shù)據(jù)轉化為智能的組件。它不一定是高端的本地數(shù)據(jù)中心,也可能是在加速計算基礎設施上運行的 AI 專用云或混合模型,甚至可能是同時優(yōu)化網絡并執(zhí)行邊緣推理的電信基礎設施。
任何配備了軟件的加速計算基礎設施,只要能通過 AI 將數(shù)據(jù)轉化為智能,本質上均可視為 AI 工廠。
AI 工廠的組件包括了加速計算、網絡、軟件、存儲、系統(tǒng)以及工具和服務。
當用戶向 AI 系統(tǒng)輸入提示時,AI 工廠的全棧系統(tǒng)就開始工作。它將提示 token 化,也就是將數(shù)據(jù)轉化為圖像、聲音、文字片段等語義單元。
每個 token 被輸入到 GPU 驅動的 AI 模型中,隨之在模型上進行計算密集型推理,以生成最佳響應。每個 GPU 通過高速網絡和互連技術執(zhí)行并行處理,從而同時處理海量數(shù)據(jù)。
對于來自全球用戶的各種提示,AI 工廠都會運行上述流程。這種實時推理能夠以工業(yè)級規(guī)模來生產智能。
由于 AI 工廠整合了整個 AI 生命周期,該系統(tǒng)能夠持續(xù)改進:記錄推理過程,標記邊緣案例以進行再訓練,優(yōu)化循環(huán)隨時間逐漸收斂。這一切均無需人工干預,這就是“有效吞吐量”的實際體現(xiàn)。
面向 AI 工廠的 NVIDIA 全棧技術
AI 工廠將 AI 從一系列零散的實驗轉化為可擴展、可重復且可靠的創(chuàng)新與商業(yè)價值生成引擎。
NVIDIA 提供構建 AI 工廠所需的所有組件,包括加速計算、高性能 GPU、高帶寬網絡和優(yōu)化的軟件。
例如,NVIDIA Blackwell GPU可以通過網絡連接,采用液冷技術提升能效,并由 AI 軟件統(tǒng)一編排。
開源推理平臺NVIDIA Dynamo為 AI 工廠提供了一種操作系統(tǒng),該系統(tǒng)旨在以最高的效率和最低的成本加速并擴展 AI。通過智能地路由、調度和優(yōu)化推理請求,Dynamo 確保每個 GPU 周期都能得到充分利用,從而以峰值性能生產 token。
NVIDIA Blackwell GB200 NVL72系統(tǒng)和NVIDIA InfiniBand網絡專為最大化“每瓦 token 吞吐量”而設計,使 AI 工廠在總吞吐量和低延遲方面均實現(xiàn)高效運行。
通過驗證優(yōu)化后的全棧解決方案,企業(yè)可以高效地構建和維護前沿 AI 系統(tǒng)。全棧 AI 工廠助力企業(yè)實現(xiàn)卓越運營,使他們能更快、更自信地駕馭 AI 的潛力。
-
NVIDIA
+關注
關注
14文章
5594瀏覽量
109751 -
數(shù)據(jù)中心
+關注
關注
18文章
5651瀏覽量
75022 -
AI
+關注
關注
91文章
39793瀏覽量
301443
原文標題:探索 AI 工廠的創(chuàng)收潛力
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
智芯科榮膺2025中國AI好眼鏡最具發(fā)展潛力芯片廠家
探索RISC-V在機器人領域的潛力
炬芯科技榮膺2025全球電子成就獎之年度潛力AI技術公司獎
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用
《AI芯片:科技探索與AGI愿景》—— 深入硬件核心的AGI指南
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+化學或生物方法實現(xiàn)AI
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰(zhàn)
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件
使用OpenUSD和SimReady資產構建AI工廠
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內容總覽
【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》
摩爾線程“AI工廠”:五大核心技術支撐,打造大模型訓練超級工廠
摩爾線程“AI工廠”:以系統(tǒng)級創(chuàng)新定義新一代AI基礎設施
探索AI工廠的創(chuàng)收潛力
評論