近日,海光DCU正式完成對(duì)階躍星辰旗艦開(kāi)源基座模型Step 3.5 Flash的全流程適配與深度調(diào)優(yōu)。得益于新一代海光DCU原生支持FP8精度、超越主流旗艦產(chǎn)品的更大顯存等核心優(yōu)勢(shì),高效完成Step 3.5 Flash FP8的推理適配,打造“適配更全面、性能更卓越”的國(guó)產(chǎn)算力解決方案。
作為階躍星辰推出的新一代基座模型,Step 3.5 Flash總參數(shù)達(dá)1960億,推理時(shí)僅激活約110億參數(shù),單請(qǐng)求代碼任務(wù)下推理速度最高可達(dá)350TPS,專(zhuān)為智能體(Agent)場(chǎng)景設(shè)計(jì),在復(fù)雜推理和長(zhǎng)鏈任務(wù)中表現(xiàn)出色,其推理深度可媲美部分頂級(jí)閉源模型,獲得全球開(kāi)發(fā)者廣泛認(rèn)可。
本次適配工作中,海光DCU團(tuán)隊(duì)充分依托以DTK(異構(gòu)計(jì)算平臺(tái))在內(nèi)的全棧AI軟件棧協(xié)同優(yōu)勢(shì),針對(duì)Step 3.5 Flash的稀疏MoE架構(gòu)特性,重點(diǎn)開(kāi)展底層算子優(yōu)化、硬件調(diào)度加速與全流程推理性能打磨,優(yōu)化模型推理時(shí)延與吞吐效率,確保模型在海光DCU平臺(tái)上實(shí)現(xiàn)高可靠、低延遲的穩(wěn)定運(yùn)行。
相較于主流的FP16精度,新一代海光DCU原生支持的FP8在相同硬件平臺(tái)上可大幅增加理論峰值性能,同時(shí)降低內(nèi)存占用與通信開(kāi)銷(xiāo),有效節(jié)約模型部署成本、提升Token Efficiency,為開(kāi)發(fā)者提供更具性?xún)r(jià)比的算力支撐。
現(xiàn)在,全球開(kāi)發(fā)者可在光合開(kāi)發(fā)者社區(qū)一鍵下載Step 3.5 Flash及Step 3.5 Flash FP8模型并落地部署,滿(mǎn)足多樣化推理需求。
-
模型
+關(guān)注
關(guān)注
1文章
3778瀏覽量
52179 -
DCU
+關(guān)注
關(guān)注
0文章
18瀏覽量
3165 -
海光信息
+關(guān)注
關(guān)注
0文章
35瀏覽量
2686
發(fā)布評(píng)論請(qǐng)先 登錄
海光DCU完成Qwen3.5多模態(tài)MoE模型全量適配
天數(shù)智芯完成阿里云通義千問(wèn)Qwen3.5系列多模態(tài)模型全量適配
沐曦股份曦云C系列GPU深度適配通義千問(wèn)Qwen3.5模型
摩爾線(xiàn)程快速完成對(duì)Qwen3.5模型全面適配
階躍星辰開(kāi)源Step 3.5 Flash,多家國(guó)產(chǎn)芯片廠(chǎng)商完成適配
沐曦曦云C600 GPU產(chǎn)品適配階躍星辰基座模型Step 3.5 Flash
海光DCU完成階躍星辰基座模型Step 3.5 Flash推理適配
評(píng)論