91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

沐曦GPU跑通DeepSeek開源代碼庫FlashMLA

沐曦MetaX ? 來源:沐曦MetaX ? 2025-02-25 16:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeepSeek 開源周

今日,DeepSeek正式啟動"開源周"計(jì)劃,首發(fā)代碼庫FlashMLA一經(jīng)開源即引發(fā)全網(wǎng)關(guān)注。截至發(fā)稿,該項(xiàng)目已在GitHub斬獲超7.2K Star!

沐曦技術(shù)團(tuán)隊(duì)在FlashMLA開源后迅速響應(yīng),僅用2小時(shí)即完成與沐曦GPU的適配工作,并于當(dāng)日將代碼提交至開源社區(qū)。本次適配成功后,MXMACA平臺也可完美運(yùn)行FlashMLA,這充分驗(yàn)證了沐曦GPGPU架構(gòu)與MXMACA軟件平臺在生態(tài)兼容性方面的先天優(yōu)勢!

FlashMLA通過MLA解碼優(yōu)化與分頁KV緩存技術(shù)等顯著提升硬件利用率,可加速大語言模型解碼過程,有效提升響應(yīng)速度與吞吐量,尤其適用于聊天機(jī)器人等實(shí)時(shí)生成場景。沐曦在適配中應(yīng)用矩陣吸收算法將低秩投影融入Flash Attention 2核函數(shù),在保證計(jì)算效率的同時(shí)顯著降低顯存占用。同步構(gòu)建了MXMACA自動化測試體系覆蓋常規(guī)及邊界場景,確保功能準(zhǔn)確性與數(shù)值穩(wěn)定性,為長文本生成等顯存敏感場景提供顯著性能增益。沐曦本次提交的代碼不僅突破了官方實(shí)現(xiàn)中對Hopper架構(gòu)的依賴,還新增支持64以外的多樣化page size配置,大幅提升框架適用性,為開源社區(qū)帶來實(shí)質(zhì)性技術(shù)貢獻(xiàn)。

明天,DeepSeek開源計(jì)劃第二彈即將揭曉,敬請期待后續(xù)動態(tài)!

關(guān)于沐曦

沐曦致力于為異構(gòu)計(jì)算提供安全可靠的GPU芯片及解決方案,打造全棧GPU芯片產(chǎn)品,推出曦思N系列GPU用于智算推理,曦云C系列GPU用于通用計(jì)算,以及曦彩G系列GPU用于圖形渲染,滿足“高能效”及“高通用性”的算力需求。沐曦產(chǎn)品均采用完全自主研發(fā)的GPU IP,擁有完全自主的指令集和架構(gòu),配以兼容主流GPU生態(tài)的完整軟件棧(MXMACA),具備高能效和高通用性的天然優(yōu)勢,能夠?yàn)榭蛻魳?gòu)建軟硬件一體的全面生態(tài)解決方案,是“雙碳”背景下推動數(shù)字經(jīng)濟(jì)建設(shè)和產(chǎn)業(yè)數(shù)字化、智能化轉(zhuǎn)型升級的算力基石。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5194

    瀏覽量

    135473
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4207

    瀏覽量

    46149
  • 沐曦
    +關(guān)注

    關(guān)注

    1

    文章

    80

    瀏覽量

    1811
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    835

    瀏覽量

    3271

原文標(biāo)題:2小時(shí)極速適配!沐曦GPU率先跑通DeepSeek開源代碼庫FlashMLA!

文章出處:【微信號:沐曦MetaX,微信公眾號:沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    股份云C系列GPU全面適配通義千問Qwen3.5三款新模型

    今日,通義千問團(tuán)隊(duì)正式開源發(fā)布Qwen3.5系列中等規(guī)模模型,推出包括Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Qwen3.5-27B三個版本。股份旗下
    的頭像 發(fā)表于 02-28 10:05 ?422次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b>云C系列<b class='flag-5'>GPU</b>全面適配通義千問Qwen3.5三款新模型

    股份云C系列GPU深度適配通義千問Qwen3.5模型

    今天,通義千問今天正式發(fā)布 Qwen3.5,并推出Qwen3.5系列的第一款模型 Qwen3.5-397B-A17B 的開放權(quán)重版本。股份云C系列GPU 完成對Qwen 3.5模
    的頭像 發(fā)表于 02-26 14:26 ?437次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b>云C系列<b class='flag-5'>GPU</b>深度適配通義千問Qwen3.5模型

    云C500/C550 GPU產(chǎn)品深度適配MiniMax M2.5模型

    2月13日晚間,MiniMax正式開源MiniMax M2.5模型。技術(shù)團(tuán)隊(duì)依托MXMACA軟件棧,在24小時(shí)內(nèi)完成云C500/C550 對該模型的深度適配。
    的頭像 發(fā)表于 02-26 14:19 ?659次閱讀

    云C系列GPU Day 0 適配智譜全新一代大模型GLM-5

    ,支持模型“零代碼”或極低改造成本遷移。MXMACA已于2025年2月正式開源,目前用戶規(guī)模已突破25萬人。 云C系列GPU基于
    的頭像 發(fā)表于 02-12 10:53 ?820次閱讀
    <b class='flag-5'>曦</b>云C系列<b class='flag-5'>GPU</b> Day 0 適配智譜全新一代大模型GLM-5

    云C500/C550 GPU產(chǎn)品適配智譜GLM-OCR模型

    今天,智譜AI正式發(fā)布并開源GLM-OCR,以 “小尺寸、高精度” 實(shí)現(xiàn)文檔解析能力新標(biāo)桿。股份云C500/C550 GPU充分發(fā)揮高
    的頭像 發(fā)表于 02-03 11:36 ?666次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云C500/C550 <b class='flag-5'>GPU</b>產(chǎn)品適配智譜GLM-OCR模型

    股份正式推出索X系列全新GPU品牌與產(chǎn)品線

    1月27日,股份(股票代碼:688802.SH)正式推出索X系列全新GPU品牌與產(chǎn)品線。該系列產(chǎn)品是面向科學(xué)智能場景深度優(yōu)化的高性能計(jì)
    的頭像 發(fā)表于 01-28 17:14 ?633次閱讀

    受邀出席第二屆開源產(chǎn)業(yè)生態(tài)大會

    以“開源筑基·數(shù)實(shí)維新”為主題的第二屆開源產(chǎn)業(yè)生態(tài)大會將于1月13日在上海舉行。受邀出席本次行業(yè)盛會,聯(lián)合創(chuàng)始人、CTO兼首席軟件架構(gòu)師楊建將發(fā)表主題演講并參與圓桌論壇環(huán)節(jié),分享
    的頭像 發(fā)表于 01-14 13:51 ?300次閱讀

    股份云C系列GPU Day 0適配智譜GLM-4.6V多模態(tài)大模型

    12月8日智譜AI發(fā)布并開源 GLM-4.6V 系列多模態(tài)大模型,股份云C系列GPU完成Day 0適配。
    的頭像 發(fā)表于 12-17 14:28 ?623次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b>云C系列<b class='flag-5'>GPU</b> Day 0適配智譜GLM-4.6V多模態(tài)大模型

    股份與上海電信完成首期GPU生態(tài)專家認(rèn)證培訓(xùn)

    近期,集成電路(上海)股份有限公司(以下簡稱“股份”)攜手上海電信天翼云能力運(yùn)營中心(以下簡稱“云能力運(yùn)營中心”)順利完成了首期GPU
    的頭像 發(fā)表于 10-31 10:33 ?500次閱讀

    首款全國產(chǎn)通用GPU芯片發(fā)布 集成推出云C600

    集成電路(南京)有限公司近日正式發(fā)布了首款全國產(chǎn)通用GPU——云C600,這標(biāo)志著國產(chǎn)高性能GPU實(shí)現(xiàn)歷史性突破。 據(jù)新華日報(bào)報(bào)道顯示
    的頭像 發(fā)表于 10-19 20:04 ?4.6w次閱讀

    GPU與龍蜥操作系統(tǒng)完成適配

    集成電路(上海)股份有限公司(以下簡稱"")于 2020 年 9 月成立于上海,其擁有技術(shù)完備、設(shè)計(jì)和產(chǎn)業(yè)化經(jīng)驗(yàn)豐富的團(tuán)隊(duì),曾主導(dǎo)過十多款世界主流高性能
    的頭像 發(fā)表于 10-17 15:06 ?1208次閱讀

    云C系列產(chǎn)品已支持TileLang

    近日,DeepSeek宣布在其新版本中擁抱國產(chǎn)GPU語言TileLang,引發(fā)業(yè)界廣泛關(guān)注。作為國產(chǎn)高性能GPU的代表,
    的頭像 發(fā)表于 10-14 09:25 ?1185次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云C系列產(chǎn)品已支持TileLang

    硅基流動攜手首發(fā)基于云的Kimi K2推理服務(wù)

    天網(wǎng)絡(luò)”)運(yùn)營的云C550 三千卡通用 GPU 國產(chǎn)集群。此次合作標(biāo)志著硅基流動正式將該國產(chǎn)集群納入算力網(wǎng)絡(luò),進(jìn)一步為大模型產(chǎn)業(yè)落地提供充沛的高性能國產(chǎn)算力。
    的頭像 發(fā)表于 07-23 17:33 ?1941次閱讀

    云C500通用計(jì)算GPU與百度飛槳完成Ⅱ級兼容性測試

    近日,云C500通用計(jì)算GPU與百度飛槳已完成Ⅱ級兼容性測試。測試結(jié)果顯示,雙方兼容性表現(xiàn)良好,整體運(yùn)行穩(wěn)定。這是
    的頭像 發(fā)表于 03-31 14:22 ?1825次閱讀

    加速DeepSeek滿血版單卡C500異構(gòu)推理

    近日,基于開源KTransformers架構(gòu)的 CPU/GPU 異構(gòu)推理能力,云C500單卡GP
    的頭像 發(fā)表于 03-20 15:52 ?2249次閱讀