自DeepSeek啟動“開源周”以來,已陸續(xù)開源三個代碼庫。摩爾線程基于全新MUSA Compute Capability 3.1計算架構,可提供原生FP8計算能力,同時升級了高性能線性代數(shù)模板庫MUTLASS,快速支持了FlashMLA。不僅如此,摩爾線程還基于MUTLASS在全新GPU架構上優(yōu)化實現(xiàn)了FP8矩陣乘法,支持DeepGEMM的相應功能,充分展示了摩爾線程MUSA架構和全功能GPU在生態(tài)兼容與快速適配上的強大優(yōu)勢。
FlashMLA是一款高效的MLA(Multi-Head Latent Attention)推理內核開源倉庫,旨在加速MLA機制的計算,特別適用于DeepSeek系列模型(如DeepSeek-V2、V3和R1)。DeepGEMM是一個支持密集矩陣與混合專家(MoE)矩陣乘法的FP8 GEMM庫,為 V3/R1的訓練與推理提供強大動力。這兩個重要的開源倉庫均基于高性能通用矩陣乘法(GEMM)的C++模板庫進行開發(fā)。
摩爾線程基于新一代計算架構MUSA Compute Capability 3.1的全功能GPU,具備全新的Tensor計算引擎及數(shù)據(jù)搬運引擎,能夠提供原生FP8計算能力。升級的MUTLASS高性能線性代數(shù)模板庫支持MUSA Compute Capability 3.1的全新特性,并提供了若干算子的優(yōu)化參考實現(xiàn),包括基于FlashAttention3思想實現(xiàn)的FlashMLA以及FP8矩陣乘算子,特別支持DeepSeek訓練所需的Groupwise Scaling FP8矩陣乘法內核函數(shù)。得益于全新的Tensor計算引擎,F(xiàn)P8計算具有足夠高的累加精度,無需額外的二次精度修正,為前沿算法的探索打下了堅實基礎。
借助MUTLASS 0.2.0,摩爾線程發(fā)布開源倉庫MT-FlashMLA,能夠快速對DeepSeek FlashMLA進行兼容部署。同時摩爾線程MUTLASS提供了一個全新的參考實現(xiàn),充分汲取FlashAttention3的先進算法思想,針對摩爾線程GPU設計了全新的計算流水線。這一設計能夠有效掩藏數(shù)據(jù)搬運的延遲和Softmax計算的開銷,充分發(fā)揮摩爾線程MUSA Compute Capability 3.1全功能GPU的Tensor計算效率。
作為國內率先原生支持FP8計算精度的國產GPU企業(yè),摩爾線程迅速響應,并快速適配DeepSeek的各個開源倉庫,旨在為更多GPU開發(fā)者賦能。摩爾線程始終致力于推動開源生態(tài)的發(fā)展,通過技術開放與生態(tài)共建,加速國產全功能GPU在AI計算領域的規(guī)?;瘧茫瑸楦嘤脩籼峁└悄?、高效的解決方案。
關于摩爾線程
摩爾線程成立于2020年10月,以全功能GPU為核心,致力于向全球提供加速計算的基礎設施和一站式解決方案,為各行各業(yè)的數(shù)智化轉型提供強大的AI計算支持。
我們的目標是成為具備國際競爭力的GPU領軍企業(yè),為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。
-
gpu
+關注
關注
28文章
5194瀏覽量
135481 -
開源
+關注
關注
3文章
4207瀏覽量
46151 -
摩爾線程
+關注
關注
2文章
279瀏覽量
6456 -
DeepSeek
+關注
關注
2文章
835瀏覽量
3271
原文標題:原生FP8計算 + MUTLASS|摩爾線程高效完成DeepSeek開源庫FlashMLA和DeepGEMM的適配
文章出處:【微信號:moorethreads,微信公眾號:摩爾線程】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
摩爾線程MTT S5000全面適配Qwen3.5三款新模型
摩爾線程快速完成對Qwen3.5模型全面適配
Day-0支持|摩爾線程完成MiniMax M2.5模型極速適配
摩爾線程MTT S5000率先完成對GLM-5的適配
Day-0支持|摩爾線程MTT S5000率先完成對GLM-5的適配
摩爾線程正式開源TileLang-MUSA項目
摩爾線程發(fā)布Torch-MUSA v2.7.0版本
摩爾線程亮相GOTC 2025全球開源技術峰會
國家信息中心與摩爾線程達成戰(zhàn)略合作
【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得
摩爾線程率先支持騰訊混元-A13B模型
摩爾線程MTT S4000完成DeepSeek R1-671B大模型適配驗證
摩爾線程GPU成功適配Deepseek-V3-0324大模型
摩爾線程與當虹科技達成深度合作
摩爾線程GPU原生FP8計算助力AI訓練
摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配
評論