日本欧美亚洲亚洲视频一,AV久最新在线在线黄动漫

自DeepSeek啟動“開源周”以來，已陸續(xù)開源三個代碼庫。摩爾線程基于全新MUSA Compute Capability 3.1計算架構，可提供原生FP8計算能力，同時升級了高性能線性代數(shù)模板庫MUTLASS，快速支持了FlashMLA。不僅如此，摩爾線程還基于MUTLASS在全新GPU架構上優(yōu)化實現(xiàn)了FP8矩陣乘法，支持DeepGEMM的相應功能，充分展示了摩爾線程MUSA架構和全功能GPU在生態(tài)兼容與快速適配上的強大優(yōu)勢。

FlashMLA是一款高效的MLA（Multi-Head Latent Attention）推理內核開源倉庫，旨在加速MLA機制的計算，特別適用于DeepSeek系列模型（如DeepSeek-V2、V3和R1）。DeepGEMM是一個支持密集矩陣與混合專家（MoE）矩陣乘法的FP8 GEMM庫，為 V3/R1的訓練與推理提供強大動力。這兩個重要的開源倉庫均基于高性能通用矩陣乘法（GEMM）的C++模板庫進行開發(fā)。

摩爾線程基于新一代計算架構MUSA Compute Capability 3.1的全功能GPU，具備全新的Tensor計算引擎及數(shù)據(jù)搬運引擎，能夠提供原生FP8計算能力。升級的MUTLASS高性能線性代數(shù)模板庫支持MUSA Compute Capability 3.1的全新特性，并提供了若干算子的優(yōu)化參考實現(xiàn)，包括基于FlashAttention3思想實現(xiàn)的FlashMLA以及FP8矩陣乘算子，特別支持DeepSeek訓練所需的Groupwise Scaling FP8矩陣乘法內核函數(shù)。得益于全新的Tensor計算引擎，F(xiàn)P8計算具有足夠高的累加精度，無需額外的二次精度修正，為前沿算法的探索打下了堅實基礎。

借助MUTLASS 0.2.0，摩爾線程發(fā)布開源倉庫MT-FlashMLA，能夠快速對DeepSeek FlashMLA進行兼容部署。同時摩爾線程MUTLASS提供了一個全新的參考實現(xiàn)，充分汲取FlashAttention3的先進算法思想，針對摩爾線程GPU設計了全新的計算流水線。這一設計能夠有效掩藏數(shù)據(jù)搬運的延遲和Softmax計算的開銷，充分發(fā)揮摩爾線程MUSA Compute Capability 3.1全功能GPU的Tensor計算效率。

作為國內率先原生支持FP8計算精度的國產GPU企業(yè)，摩爾線程迅速響應，并快速適配DeepSeek的各個開源倉庫，旨在為更多GPU開發(fā)者賦能。摩爾線程始終致力于推動開源生態(tài)的發(fā)展，通過技術開放與生態(tài)共建，加速國產全功能GPU在AI計算領域的規(guī)?；瘧茫瑸楦嘤脩籼峁└悄?、高效的解決方案。

關于摩爾線程

摩爾線程成立于2020年10月，以全功能GPU為核心，致力于向全球提供加速計算的基礎設施和一站式解決方案，為各行各業(yè)的數(shù)智化轉型提供強大的AI計算支持。

我們的目標是成為具備國際競爭力的GPU領軍企業(yè)，為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
5194

瀏覽量
135481
開源

開源

+關注

關注
3

文章
4207

瀏覽量
46151
摩爾線程

摩爾線程

+關注

關注
2

文章
279

瀏覽量
6456
DeepSeek

DeepSeek

+關注

關注
2

文章
835

瀏覽量
3271

原文標題：原生FP8計算 + MUTLASS｜摩爾線程高效完成DeepSeek開源庫FlashMLA和DeepGEMM的適配

文章出處：【微信號：moorethreads，微信公眾號：摩爾線程】歡迎添加關注！文章轉載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配

評論