91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI推理:如何實(shí)現(xiàn)吞吐翻倍、時(shí)延降90%與GPU資源節(jié)省26%?

京東云 ? 來源:jf_75140285 ? 2026-02-25 17:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言:AI規(guī)模化落地,推理系統(tǒng)面臨全新挑戰(zhàn)

?

全球領(lǐng)先的市場(chǎng)研究和咨詢公司IDC預(yù)測(cè),到2028年,75%的新 AI 工作負(fù)載將實(shí)現(xiàn)容器化,從而顯著提升模型與工作負(fù)載更新的速度、一致性與安全性。容器化技術(shù)將成為 AI 推理時(shí)代的“默認(rèn)交付形態(tài)”。當(dāng)前隨著大模型技術(shù)快速演進(jìn)與業(yè)務(wù)場(chǎng)景的深度融合,AI業(yè)務(wù)對(duì)推理基礎(chǔ)設(shè)施的需求呈現(xiàn)爆發(fā)式增長。在早期小流量場(chǎng)景下,手動(dòng)部署與定制化方案尚可應(yīng)對(duì);然而當(dāng)模型規(guī)模、并發(fā)請(qǐng)求與業(yè)務(wù)復(fù)雜度攀升至新高度時(shí),傳統(tǒng)推理系統(tǒng)在以下四個(gè)主要方面逐漸暴露出瓶頸。

1. 穩(wěn)定性不足

?單點(diǎn)故障風(fēng)險(xiǎn):手動(dòng)部署的靜態(tài)架構(gòu)缺乏多副本與故障自愈機(jī)制,單節(jié)點(diǎn)宕機(jī)易引發(fā)服務(wù)中斷;

?負(fù)載不均衡:缺乏智能流量調(diào)度,高并發(fā)時(shí)部分節(jié)點(diǎn)過載導(dǎo)致響應(yīng)延遲,低負(fù)載時(shí)資源閑置;

?故障恢復(fù)滯后:依賴人工排查與重啟,恢復(fù)周期長,影響業(yè)務(wù)連續(xù)性。

2.資源利用率低下

?靜態(tài)資源分配:固定規(guī)模的GPU集群無法適應(yīng)流量波動(dòng),高峰時(shí)段資源爭(zhēng)搶,低谷期GPU閑置率超40%;

?缺乏彈性機(jī)制:無法根據(jù)請(qǐng)求隊(duì)列長度、KV緩存利用率等指標(biāo)動(dòng)態(tài)擴(kuò)縮容,導(dǎo)致周級(jí)別GPU卡時(shí)浪費(fèi)超5000+。

3.推理性能瓶頸

?混合請(qǐng)求排隊(duì):長、短文請(qǐng)求混合處理時(shí),短文首字時(shí)延(TTFT)因排隊(duì)激增90%以上;

?緩存復(fù)用率低:多副本場(chǎng)景下相同前綴請(qǐng)求隨機(jī)調(diào)度,重復(fù)計(jì)算導(dǎo)致KV緩存命中率不足60%;

?硬件拓?fù)湮磧?yōu)化:跨交換機(jī)部署引發(fā)傳輸延遲,人工調(diào)整拓?fù)溆H和性成本高且易出錯(cuò)。

4.定制成本高昂

?多引擎適配復(fù)雜:vLLM、SGLang等引擎需獨(dú)立開發(fā)接入層,版本迭代與兼容性維護(hù)成本攀升;

?運(yùn)維依賴人工:從部署、監(jiān)控到故障修復(fù)全流程手動(dòng)操作,人力成本占比超30%,且易引入人為錯(cuò)誤。

?

為此,京東云結(jié)合實(shí)際業(yè)務(wù)需求與技術(shù)趨勢(shì),全面擁抱云原生技術(shù)棧,積累了豐富的云原生與高性能推理經(jīng)驗(yàn)。自主研發(fā)了新一代云原生AI推理框架。推動(dòng)推理系統(tǒng)完成了一次體系化升級(jí),實(shí)現(xiàn)了從手動(dòng)部署到全場(chǎng)景AutoScale,從資源浪費(fèi)到GPU利用率最大化。

?流量高峰自動(dòng)擴(kuò)容、低谷自動(dòng)縮容,GPU卡時(shí)節(jié)省高達(dá)26%;

?智能流量調(diào)度與KV緩存復(fù)用,最高提升吞吐124%,首次生成時(shí)延TTFT降低90%;

?具備多級(jí)高可用能力,支持流量隔離、故障自愈與深度可觀測(cè);

?模型量化、引擎調(diào)優(yōu)、算子開發(fā)等多項(xiàng)優(yōu)化,推理引擎單點(diǎn)性能呈現(xiàn)局部領(lǐng)先優(yōu)勢(shì)。

?

詳細(xì)了解一套生產(chǎn)級(jí)分布式AI訓(xùn)練推理平臺(tái)(JoyBuilder)的云原生改造全紀(jì)實(shí)。京東云云原生AI推理框架。

?

一、系統(tǒng)架構(gòu)設(shè)計(jì):面向生產(chǎn)級(jí)的高性能云原生推理平臺(tái)

設(shè)計(jì)理念:

我們遵循三大核心設(shè)計(jì)原則,確保系統(tǒng)長期迭代的靈活性:

1.解耦與組合 各模塊盡量松耦合,優(yōu)先復(fù)用開源成熟組件,同時(shí)避免被社區(qū)綁定,保留核心模塊的可替換能力。

2.擴(kuò)展性優(yōu)先 支持以插件化方式集成智能調(diào)度算法(流量調(diào)度、擴(kuò)縮容決策、Prefix Cache打分等);容器編排能力可擴(kuò)展,目前已支持跨機(jī)部署與基于角色的調(diào)度策略。

3.引擎無感接入 目前可同時(shí)支持vLLM、SGLang等主流推理引擎,最終實(shí)現(xiàn)任意推理引擎的低成本接入。

系統(tǒng)架構(gòu):

?

模塊詳解:

1. 智能流量調(diào)度網(wǎng)關(guān)

基于云原生Gateway API與Inference Extension框架,我們構(gòu)建了支持多引擎、高可用、高擴(kuò)展的智能推理網(wǎng)關(guān),支持多層次調(diào)度策略:

?

核心能力 說明
長短文分桶推理 流量調(diào)度 網(wǎng)關(guān)基于高效的長短文分桶算法,構(gòu)建跨模型集群的分流調(diào)度,顯著降低短文TTFT(首字生成時(shí)延);
前綴緩存感知KV復(fù)用流量調(diào)度 面向不同模型上下文特征,基于 HashTrie 算法構(gòu)建集群內(nèi)全局pod的近似前綴緩存畫像,支持prefix cache的親和調(diào)度,有效降低推理 TTFT(首字生成時(shí)延);
多維負(fù)載均衡流量調(diào)度 毫秒級(jí)實(shí)時(shí)采集KV Cache Utilization、Waiting Queue等server load指標(biāo),支持load aware 親和調(diào)度;
交換機(jī)拓?fù)涓兄髁空{(diào)度 為減少PD group組內(nèi)KV cache傳輸?shù)暮臅r(shí),構(gòu)建網(wǎng)絡(luò)拓?fù)涓兄?strong>支持全局最優(yōu)prefill + 局部最優(yōu)decode的網(wǎng)絡(luò)親和調(diào)度;
多引擎PD分離流量編排調(diào)度 已支持vLLM(PD串行)、SGLang(PD異步并行) 異構(gòu)引擎無差別流量調(diào)度
LoRA動(dòng)態(tài)流量調(diào)度、模型切換的流量調(diào)度 實(shí)現(xiàn)不同引擎多LoRA的動(dòng)態(tài)裝、卸載,集成LoRA-aware 的動(dòng)態(tài)流量感知調(diào)度能力;
精確的前綴感知Cache-aware流量調(diào)度 實(shí)時(shí)訂閱引擎?zhèn)菿V Events Metrics,構(gòu)建精確的前綴緩存畫像,實(shí)現(xiàn)更高效的prefix cache親和調(diào)度,進(jìn)一步降低推理TTFT;
基于時(shí)延預(yù)測(cè)的SLO-aware 流量優(yōu)先級(jí)感知調(diào)度 利用延遲預(yù)測(cè)來估算每個(gè)請(qǐng)求在每個(gè)可用節(jié)點(diǎn)上的首次生成時(shí)間(TTFT)和每個(gè)輸出令牌時(shí)間(TPOT),實(shí)現(xiàn)基于時(shí)延預(yù)測(cè)的SLO-aware智能調(diào)度;

2. 容器編排與資源調(diào)度

?

?部署靈活:PD分離部署,具有Group和Pool兩種模式,實(shí)現(xiàn)彈性擴(kuò)縮容與拓?fù)涓兄{(diào)度。

?高可用機(jī)制:多副本部署,避免單點(diǎn)故障。同時(shí)支持故障時(shí)自動(dòng)摘流與容器自愈,保障服務(wù)持續(xù)可用,用戶無感知。

?

核心能力 說明
容器編排 根據(jù)推理引擎工作特點(diǎn),基于容器之間的協(xié)作關(guān)系(Kimi多容器跨機(jī)推理、PD分離架構(gòu)等),將各個(gè)推理引擎容器一定的組織方式部署成一組Pods,并聯(lián)動(dòng)服務(wù)發(fā)現(xiàn)、重啟策略。
GPU資源調(diào)度 自動(dòng)將各個(gè)新創(chuàng)建的Pod調(diào)度到具有足夠GPU資源的機(jī)器節(jié)點(diǎn)。
拓?fù)涓兄{(diào)度 Kimi跨機(jī)推理, TP16部署的2臺(tái)機(jī)器保證在同一個(gè)交換機(jī)下;PD分離部署,協(xié)作關(guān)系的P和D在同一個(gè)交換機(jī)下。
優(yōu)先級(jí)調(diào)度和搶占 支持在線服務(wù)和離線任務(wù)的混合調(diào)度,高優(yōu)的在線服務(wù)可以搶占低優(yōu)任務(wù)的GPU資源。

3. 系統(tǒng)穩(wěn)定性與可觀測(cè)

?集成流量鏡像、全鏈路告警與主備值班協(xié)同機(jī)制。

?通過網(wǎng)關(guān)大盤、調(diào)度模塊監(jiān)控、模型性能面板等多層次觀測(cè)體系,實(shí)現(xiàn)問題快速發(fā)現(xiàn)與定位。

?

?

4. 引擎優(yōu)化與性能突破

針對(duì)MoE、多模態(tài)等模型特點(diǎn),通過算子優(yōu)化、引擎調(diào)優(yōu)與量化等手段,在多項(xiàng)關(guān)鍵性能指標(biāo)上實(shí)現(xiàn)行業(yè)領(lǐng)先。

?

二、關(guān)鍵場(chǎng)景落地與收益量化

1. 長短文混合調(diào)度

問題:長、短文請(qǐng)求混合排隊(duì)時(shí),短文TTFT急劇上升,集群吞吐下降。 方案:通過長短文分桶與跨集群調(diào)度,實(shí)現(xiàn)長短文分離處理。

收益(以Kimi-K2與DeepSeek-V3壓測(cè)為例):

?Kimi-K2:短文TTFT降低90.97%,吞吐提升124.46%;長文吞吐提升33.89%,集群整體吞吐提升67%。

?DeepSeek-V3:短文TTFT降低79.09%,吞吐提升36.7%;長文吞吐提升14.34%,集群整體吞吐提升21.82%。

?

2. KV Cache全局感知的流量調(diào)度

問題:多副本場(chǎng)景下相同前綴請(qǐng)求被隨機(jī)調(diào)度,導(dǎo)致每個(gè)實(shí)例都重復(fù)計(jì)算并緩存相同前綴。 方案:持續(xù)刻畫更新集群級(jí)KV Cache緩存畫像,實(shí)現(xiàn)前綴匹配的智能路由,KV Cache高效復(fù)用。

收益

?DeepSeek-V3場(chǎng)景下,集群吞吐提升29.9%,首Token時(shí)延TTFT降低28.7%;

?Kimi-K2場(chǎng)景下,KV Cache命中率整體提升20%~30%。

舊系統(tǒng):均值 60%、22%、12% 云原生系統(tǒng):均值 90%、45%、22%
wKgZO2mMR9-ABfT9AAGDOUAzO0k654.png wKgZPGmMR-CARqraAAGrjAi6-lc572.png

3. 全場(chǎng)景自動(dòng)彈性伸縮

問題:夜間或周末的流量低谷期GPU資源閑置嚴(yán)重。 方案:通過多種彈性部署模式并基于排隊(duì)長度與KV使用率等多項(xiàng)指標(biāo),實(shí)現(xiàn)全場(chǎng)景自動(dòng)擴(kuò)縮容。

收益

?周級(jí)別節(jié)省GPU卡時(shí)5000+,資源利用率提升26%;

?

占用卡量:隨負(fù)載 彈性擴(kuò)縮
wKgZO2mMR-GAdgWvAAFRMk2iEb0853.png

?

4. 硬件拓?fù)溆H和調(diào)度

問題:跨交換機(jī)部署導(dǎo)致性能下降;人工修正部署成本高,維護(hù)壓力大。 方案

?通過節(jié)點(diǎn)標(biāo)簽與親和性規(guī)則,實(shí)現(xiàn)交換機(jī)級(jí)自動(dòng)拓?fù)溆H和調(diào)度;

?Router實(shí)現(xiàn)按組進(jìn)行PD配對(duì)流量調(diào)度。

收益

?組容器間通信不跨交換機(jī),數(shù)據(jù)高效傳輸,全程自動(dòng)化,無需人工干預(yù),保證服務(wù)SLA。

wKgZPGmMR-KAdFDwAAGw_e0XPXw170.png

?

5. 穩(wěn)定性與業(yè)務(wù)連續(xù)性

問題:容器故障后,因分發(fā)機(jī)制導(dǎo)致持續(xù)的客戶影響。故障恢復(fù)強(qiáng)依賴人工,導(dǎo)致故障時(shí)間長,修復(fù)難度大。

方案:通過實(shí)時(shí)健康監(jiān)測(cè),快速感知故障容器,進(jìn)行隔離。啟動(dòng)新副本,實(shí)現(xiàn)故障自愈。

收益:

?實(shí)現(xiàn)自動(dòng)隔離,自動(dòng)自愈,無需人工干預(yù),節(jié)點(diǎn)人力成本,提高用戶體驗(yàn)。

?

?

6.推理引擎無感接入

問題:多引擎支持成本高,定制化開發(fā)量大,維護(hù)成本高。 方案:構(gòu)建統(tǒng)一推理引擎調(diào)度接入層,支持vLLM、SGLang等不同推理引擎一鍵接入。

收益:

?推理引擎無感快速接入。

?降低開發(fā)與維護(hù)成本。

?

?

三、收益總結(jié)

京東云云原生AI推理框架通過多維度調(diào)度與系統(tǒng)級(jí)優(yōu)化,顯著提升了推理效率與資源利用率。短文與長文吞吐均有大幅增長,首 token 延遲明顯降低,并結(jié)合自動(dòng)彈性擴(kuò)縮容與 KV Cache 感知調(diào)度,進(jìn)一步提升集群吞吐與緩存命中率,同時(shí)節(jié)省可觀的 GPU 卡時(shí)成本。在此基礎(chǔ)上,引入硬件拓?fù)溆H和調(diào)度,實(shí)現(xiàn)更高效的自動(dòng)化部署與調(diào)度,降低大規(guī)模集群運(yùn)維壓力;配合故障自愈、高可用機(jī)制與更精細(xì)的可觀測(cè)體系,使系統(tǒng)運(yùn)行更加穩(wěn)定、可控、易排障。通過針對(duì)引擎瓶頸的持續(xù)優(yōu)化,不同模型場(chǎng)景下的吞吐能力均得到明顯增強(qiáng)。

能力 量化結(jié)果與效益
長短文調(diào)度 吞吐:短文提升120%+,長文提升30%+ TTFT:短文降低90%
自動(dòng)彈性擴(kuò)縮容 GPU卡時(shí):節(jié)省GPU卡時(shí)約26%
KV Cache感知調(diào)度 提升KV Cache命中率:增長約20%~30% TTFT:降低29% 集群吞吐:增長30%
硬件拓?fù)溆H和調(diào)度 實(shí)現(xiàn)自動(dòng)化部署與調(diào)度,降低大規(guī)模集群運(yùn)維成本
故障自愈與高可用 自動(dòng)檢測(cè)故障、自動(dòng)恢復(fù)故障,減少對(duì)人工的依賴,更具可控性
可觀測(cè)性 具備更細(xì)致的監(jiān)控告警體系、提升故障發(fā)現(xiàn)和排查效率
引擎瓶頸優(yōu)化 DS-MoE模型吞吐提升9%,多模態(tài)模型吞吐最高提升39%

四、客戶案例

客戶背景

客戶原系統(tǒng)面臨AI規(guī)?;涞氐奶魬?zhàn),在推理系統(tǒng)的穩(wěn)定性、性能和資源利用率方面遇到了明顯瓶頸。京東云通過幫助客戶升級(jí)至云原生架構(gòu),成功改造了其推理系統(tǒng),實(shí)現(xiàn)顯著的性能提升和資源節(jié)約。見證了新系統(tǒng)如何帶來切實(shí)的業(yè)務(wù)效益。

解決方案

京東云通過云原生AI推理框架對(duì)客戶原78臺(tái)節(jié)點(diǎn)進(jìn)行逐步云原生改造,在不到一個(gè)月時(shí)間內(nèi)從最初的2%切流比率提升到達(dá)到40%,實(shí)現(xiàn)對(duì)用戶AI推理系統(tǒng)的云原生重構(gòu),助力企業(yè)實(shí)現(xiàn)高效、穩(wěn)定、低成本的AI規(guī)?;涞亍?strong>核心方案包括:采用智能流量調(diào)度技術(shù),通過長短文分桶、KV緩存復(fù)用及拓?fù)涓兄{(diào)度;基于流量波動(dòng)的彈性擴(kuò)縮容機(jī)制;高可用架構(gòu)通過多副本部署與故障自愈保障服務(wù)連續(xù)性;支持vLLM、SGLang等主流引擎的無感接入;硬件拓?fù)鋬?yōu)化實(shí)現(xiàn)跨交換機(jī)親和調(diào)度,減少傳輸延遲。

wKgZO2mMR-OAe86KAAG1h1mVtI0453.png

客戶收益

?

?GPU吞吐能力:切換云原生系統(tǒng)后,GPU吞吐提升幅度達(dá)74%。這一增強(qiáng)使客戶在高負(fù)載情況下依然能夠維持高效的模型推理速度。

?限流數(shù)量:云原生AI推理框架系統(tǒng)將需要限流的請(qǐng)求顯著減少82%,這意味著更多的客戶請(qǐng)求在高峰時(shí)段得到及時(shí)響應(yīng),提高了用戶體驗(yàn)和滿意度。

?
整體 舊版系統(tǒng) 云原生系統(tǒng) 收益
機(jī)器規(guī)模 78 (100%) 50 (64%) 28 (36%) -
請(qǐng)求數(shù)量 36671 (100%) 17091 (47%) 19580 (53%) -
GPU吞吐 (TGS) - 183 319 提升74%
限流數(shù)量 687 ( 1.87%) 570 (3.3%) 117 (0.59%) 減少82%
備注: 1、數(shù)據(jù)來源基于Kimi-K2-instruct-0905模型。

客戶對(duì)于系統(tǒng)的云原生改造表示高度認(rèn)可:“云原生AI系統(tǒng)的導(dǎo)入,讓我們不僅在資源利用上實(shí)現(xiàn)了顯著的性價(jià)比提升,同時(shí)在關(guān)鍵業(yè)務(wù)高峰期的響應(yīng)能力也大大增強(qiáng),顯著減少了因限流帶來的服務(wù)瓶頸問題?!?/p>

?

?

五、未來展望

京東云將繼續(xù)優(yōu)化云原生AI推理框架,致力于為客戶提供更智能、高效、穩(wěn)定的AI基礎(chǔ)設(shè)施。通過在各個(gè)行業(yè)和應(yīng)用場(chǎng)景中的深化應(yīng)用,我們的客戶可以持續(xù)依賴這一平臺(tái),實(shí)現(xiàn)業(yè)務(wù)的長期可持續(xù)發(fā)展。

這個(gè)成功案例不僅展示了京東云云原生AI推理框架系統(tǒng)的技術(shù)優(yōu)勢(shì),也為其他企業(yè)提供了一個(gè)可借鑒的成功模型,期待更多客戶從中獲益。

京東云云原生AI推理框架的研發(fā)升級(jí)并非一蹴而就。從架構(gòu)設(shè)計(jì)、配置調(diào)試再到全量上線,每一步都圍繞著業(yè)務(wù)價(jià)值、性能提升與運(yùn)維提效展開。我們相信,只有將穩(wěn)定性、性能、成本三者統(tǒng)籌兼顧的基礎(chǔ)設(shè)施,才能真正支撐AI業(yè)務(wù)規(guī)?;?、可持續(xù)地落地與增長。如您有類似場(chǎng)景或技術(shù)交流需求,歡迎隨時(shí)聯(lián)系我們。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5196

    瀏覽量

    135506
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39820

    瀏覽量

    301494
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3755

    瀏覽量

    52121
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    英偉達(dá)失守中國區(qū)!推理需求爆發(fā),國產(chǎn)GPU搶灘上市

    億元。而在此前,另一家國產(chǎn)GPU公司摩爾線程已于9月26日率先過會(huì)。這兩大GPU企業(yè)接連沖刺IPO,背后是中國AI算力需求爆發(fā)式增長與全球供應(yīng)鏈格局重塑的多重驅(qū)動(dòng)。 ?
    的頭像 發(fā)表于 10-22 09:09 ?8210次閱讀
    英偉達(dá)失守中國區(qū)!<b class='flag-5'>推理</b>需求爆發(fā),國產(chǎn)<b class='flag-5'>GPU</b>搶灘上市

    堪稱史上最強(qiáng)推理芯片!英偉達(dá)發(fā)布 Rubin CPX,實(shí)現(xiàn)50倍ROI

    的一款AI芯片,Rubin CPX采用了成本效益極高的單芯片設(shè)計(jì),集成強(qiáng)大的NVFP4計(jì)算資源,其GPU專為AI推理任務(wù)優(yōu)化,可以
    的頭像 發(fā)表于 09-11 08:25 ?1.1w次閱讀
    堪稱史上最強(qiáng)<b class='flag-5'>推理</b>芯片!英偉達(dá)發(fā)布 Rubin CPX,<b class='flag-5'>實(shí)現(xiàn)</b>50倍ROI

    大模型 ai coding 比較

    glm5 可能是真的因?yàn)?資源不夠,感覺智,速度也慢,前兩天 他們 發(fā)通知,尋求資源,目前可能不推薦 調(diào)研 我從 ? 評(píng)審維度明細(xì): 1. 代碼生成能力(權(quán)重40%) 測(cè)試目標(biāo) :模型獨(dú)立完成指定
    發(fā)表于 02-19 13:43

    AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴

    領(lǐng)域占據(jù)主導(dǎo),其GPU憑借強(qiáng)大的海量數(shù)據(jù)處理能力,成為全球AI爆炸式增長的重要基石。但隨著AI不斷演進(jìn),重點(diǎn)正從大規(guī)模訓(xùn)練轉(zhuǎn)向?qū)σ延?xùn)練模型的推理和推斷,
    的頭像 發(fā)表于 02-03 17:15 ?2017次閱讀

    使用NORDIC AI的好處

    原始傳感器數(shù)據(jù),可顯著降低功耗、延長電池壽命。[Edge AI 概述; Nordic Edge AI 技術(shù)頁] 降低云依賴與時(shí) 直接在設(shè)備上做推理,很多決策可以“本地實(shí)時(shí)”完成,
    發(fā)表于 01-31 23:16

    推理<2ms!Ultralytics最新YOLO26+樹莓派+國產(chǎn)AI加速卡實(shí)現(xiàn) 500 FPS 端側(cè) AI 性能巔峰!

    。從工業(yè)質(zhì)檢到智能安防,從機(jī)器人視覺到車載感知,AI模型正快速從“云端”走向“終端”。然而,邊緣設(shè)備往往受限于計(jì)算資源與功耗,如何在有限資源實(shí)現(xiàn)高效、實(shí)時(shí)的
    的頭像 發(fā)表于 01-30 16:11 ?3187次閱讀
    <b class='flag-5'>推理</b><2ms!Ultralytics最新YOLO<b class='flag-5'>26</b>+樹莓派+國產(chǎn)<b class='flag-5'>AI</b>加速卡<b class='flag-5'>實(shí)現(xiàn)</b> 500 FPS 端側(cè) <b class='flag-5'>AI</b> 性能巔峰!

    曦望發(fā)布新一代推理GPU芯片,單位Token推理成本降低90%

    電子發(fā)燒友網(wǎng)報(bào)道 1月27日,國產(chǎn)GPU廠商曦望(Sunrise)重磅發(fā)布新一代推理GPU芯片——啟望S3。這是曦望在近一年累計(jì)完成約30億元戰(zhàn)略融資后的首次集中公開亮相。2025年,曦望芯片交付量
    的頭像 發(fā)表于 01-28 17:38 ?8689次閱讀

    端側(cè)推理:FPGA正崛起為“非GPU”陣營的中堅(jiān)力量

    隨著AI應(yīng)用的迅猛發(fā)展,端側(cè)推理正受到前所未有的關(guān)注。與數(shù)據(jù)中心對(duì)極致吞吐的追求不同,端側(cè)推理更聚焦于低延遲、低功耗與高可靠性,其應(yīng)用場(chǎng)景呈現(xiàn)出高度分散、類型多樣的特征。從工業(yè)現(xiàn)場(chǎng)到車
    的頭像 發(fā)表于 01-23 17:17 ?2073次閱讀
    端側(cè)<b class='flag-5'>推理</b>:FPGA正崛起為“非<b class='flag-5'>GPU</b>”陣營的中堅(jiān)力量

    華為數(shù)據(jù)存儲(chǔ)與「DaoCloud 道客」發(fā)布AI推理加速聯(lián)合解決方案

    規(guī)?;l(fā)展的攔路虎。在有限算力下,長序列輸入導(dǎo)致首Token時(shí)(TTFT)增加,甚至超長序列超出模型上下文窗口限制;隨著并發(fā)數(shù)增加,推理吞吐開始下降,任務(wù)頻繁卡頓;歷史對(duì)話和行業(yè)知識(shí)的重復(fù)調(diào)用造成算力浪費(fèi),加大
    的頭像 發(fā)表于 11-28 10:03 ?407次閱讀
    華為數(shù)據(jù)存儲(chǔ)與「DaoCloud 道客」發(fā)布<b class='flag-5'>AI</b><b class='flag-5'>推理</b>加速聯(lián)合解決方案

    今日看點(diǎn)丨華為發(fā)布AI推理創(chuàng)新技術(shù)UCM;比亞迪汽車出口暴增130%

    緩存加速算法工具,分級(jí)管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù),可擴(kuò)大推理上下文窗口,實(shí)現(xiàn)吞吐、低時(shí)
    發(fā)表于 08-13 09:45 ?5363次閱讀

    研華科技推出緊湊型邊緣AI推理系統(tǒng)AIR-120

    Hailo-8 AI加速器。這一強(qiáng)大的系統(tǒng)配置能夠提供可擴(kuò)展的性能,最多具備8個(gè)核心,AI計(jì)算能力高達(dá)26 TOPS,并且在性能、功耗效率和成本之間進(jìn)行平衡,從而實(shí)現(xiàn)
    的頭像 發(fā)表于 07-17 17:16 ?1059次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    網(wǎng)絡(luò)智能診斷平臺(tái)。通過對(duì)私有化網(wǎng)絡(luò)數(shù)據(jù)的定向訓(xùn)練,信而泰打造了高性能、高可靠性的網(wǎng)絡(luò)診斷模型,顯著提升了AI輔助診斷的精準(zhǔn)度與實(shí)用性。該方案實(shí)現(xiàn)了網(wǎng)絡(luò)全流量深度解析能力與AI智能推理
    發(fā)表于 07-16 15:29

    算力革命:RoCE實(shí)測(cè)推理時(shí)比InfiniBand低30%的底層邏輯

    AI 訓(xùn)練與推理中的網(wǎng)絡(luò)效率瓶頸,助力數(shù)據(jù)中心在高帶寬、低延遲、高可靠性的需求下實(shí)現(xiàn)算力資源的最優(yōu)配置。
    的頭像 發(fā)表于 05-28 14:08 ?2117次閱讀
    算力革命:RoCE實(shí)測(cè)<b class='flag-5'>推理</b>時(shí)<b class='flag-5'>延</b>比InfiniBand低30%的底層邏輯

    提升AI訓(xùn)練性能:GPU資源優(yōu)化的12個(gè)實(shí)戰(zhàn)技巧

    在人工智能與機(jī)器學(xué)習(xí)技術(shù)迅速發(fā)展的背景下,GPU計(jì)算資源的高效利用已成為關(guān)鍵技術(shù)指標(biāo)。優(yōu)化的GPU資源分配不僅能顯著提升模型訓(xùn)練速度,還能實(shí)現(xiàn)
    的頭像 發(fā)表于 05-06 11:17 ?1550次閱讀
    提升<b class='flag-5'>AI</b>訓(xùn)練性能:<b class='flag-5'>GPU</b><b class='flag-5'>資源</b>優(yōu)化的12個(gè)實(shí)戰(zhàn)技巧

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴(kuò)展 AI 工廠中的 AI
    的頭像 發(fā)表于 03-20 15:03 ?1247次閱讀