91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

擁抱DeepSeek開源生態(tài)| 算能TPU接入TileLang,集結(jié)北大復(fù)旦山大頂尖團隊!

算能開發(fā)者社區(qū) ? 2025-10-03 19:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,DeepSeek V3.2-Exp 上線,官宣支持國產(chǎn)AI算子編程語言TileLang 并發(fā)布了針對 V3.2 的算子示例,這意味著支持“同一語義、跨多后端”的TileLang得到了權(quán)威認可,基于算能TPU的TileLang-TPU項目也于近日完成工程驗證。

TileLang 發(fā)布之初,算能聯(lián)合北京大學(xué)、復(fù)旦大學(xué)、山東大學(xué)等高校的科研團隊,共同開展TileLang接入算能TPU的工作,目前已在BM1684X 、SC11等智算平臺上完成了主流大模型算子的工程驗證。

算能SC11 FP300單卡集成256GB LPDDR5X高帶寬內(nèi)存,內(nèi)置原生FP8算力單元,板載高達1.1TB/s的內(nèi)存帶寬,配合PCIe Gen5主機接口及256GB/s的卡間高速互聯(lián),有效應(yīng)對大模型參數(shù)存儲與計算需求,DeepSeek V3滿血版在4卡SC11上吞吐超過600tokens/s。


Tile Language (TileLang) 是一種簡潔的領(lǐng)域?qū)S谜Z言,也是一款開源的 AI 算子編程語言,TileLang 對接算能TPU擴展的工作由北大碩士生解文浩、博士生任天行作為主要負責(zé)人牽頭開發(fā),山大、復(fù)旦的研發(fā)團隊也參與了算子開發(fā)、大模型接入TPU的工作,一并表示感謝。4e96f3dc-a049-11f0-8ce9-92fbcf53809c.png

全棧貫通|從可行性到工程閉環(huán)

TileLang能夠?qū)⒏呒墑e的數(shù)據(jù)流描述,自動轉(zhuǎn)換并優(yōu)化為高效的底層代碼(如CUDA或TPU kernel)。通過獨特的Tile級抽象和自動調(diào)度能力,開發(fā)者可以用更簡潔的代碼表達復(fù)雜計算,快速為自己的算法開發(fā)一個接近峰值性能的算子,顯著提升算子開發(fā)效率。

TileLang-TPU適配路徑以“少驚擾、強約束”為原則:前端僅描述 tile 級計算邏輯與數(shù)據(jù)流,不引入設(shè)備細節(jié);中間以穩(wěn)定的 Tile-IR 承接形狀推斷、布局決定與算子融合;后端生成面向算能 TPU 的 device 側(cè) C 代碼與指令序列,并與 PPL 的內(nèi)核注冊、調(diào)度與運行時貫通。

4ea1d662-a049-11f0-8ce9-92fbcf53809c.png

該路徑已在典型大模型算子上跑通,涵蓋常見的 GEMM、歸一化與位置相關(guān)變換等,完成從算子表達、代碼生成、到 hostdevice 數(shù)據(jù)搬運和執(zhí)行的全鏈路打通。由此,TileLang 的一次建模、多后端復(fù)用能力在國產(chǎn) TPU 場景獲得驗證,為后續(xù)開源與規(guī)模化交付奠定了基礎(chǔ)。

極致簡潔|三步實現(xiàn) TPU后端支持

TileLang-TPU的核心工作聚焦三點:前端原語擴展。于 TileLang/language/customize.py 增補自定義 tile op 接口,使 GEMM、RMSNorm、RoPE、SwiGLU 等算子可以以更貼近數(shù)學(xué)定義的方式表達,并在 Tile-IR 層明確迭代空間、數(shù)據(jù)復(fù)用與流水線切分,減少手寫索引與 bank 沖突的偶然性。

4eb2f988-a049-11f0-8ce9-92fbcf53809c.png

代碼生成映射。于 src/target/codegen_ppl.cc 完成原語到算能 TPU 專用執(zhí)行單元的映射,將GEMM 一類算子對齊到 BDC 的矩陣乘路徑(如 tpu_bdc_fp_mm.v 等),同時根據(jù)設(shè)備層級內(nèi)存模型生成指令序列與局部緩存策略,確保計算與搬運(GDMA)管線化協(xié)同。以matmul在BM1684x上的計算為例,使用TileLang撰寫的算子跟PPL手寫算子性能持平,代碼更加簡潔。

4ebe3be0-a049-11f0-8ce9-92fbcf53809c.png

運行棧整合。生成的 device 側(cè) C 代碼與元信息并入 PPL 體系,完成 kernel 注冊、調(diào)度入口與形參綁定,保證 host 側(cè)裝載、形狀檢查、dtype/stride 處理與 device 側(cè)執(zhí)行一致;必要時補充 tiling 規(guī)則與長短軸對齊策略,以兼顧大shape與批處理場景。當(dāng)前已實現(xiàn)TileLang 前端 → PPL/TPU 設(shè)備端 C → PPL 運行期可執(zhí)行的完整鏈路,關(guān)鍵算子具備可對齊的性能基線與可定位的優(yōu)化,便于后續(xù)按模型族進行系統(tǒng)化補全與壓測。

持續(xù)開源 | 一次改寫多處復(fù)用

TileLang開源的價值不止于“又多了一個后端”,更在于“少了成倍的重復(fù)移植”。在國產(chǎn)芯片生態(tài)日益多樣化的現(xiàn)實下,統(tǒng)一的 tile 級前端抽象能把算子資產(chǎn)沉淀在可組合、可驗證的語義層;遷移到新后端時,僅需圍繞 CodeGen 與 runtime 這條窄口補齊映射與 ABI,可繼承既有的表達、調(diào)度與測試體系。

這種“前端統(tǒng)一、后端定制”的方式,有機會在工程維度緩解國產(chǎn)芯片的碎片化,讓差異化架構(gòu)以最小成本共享同一套高質(zhì)量算子實現(xiàn)與基準。后續(xù)開發(fā)團隊將優(yōu)先確保DeepSeek等主流模型鏈路的端到端可用,再面向長尾算子逐步補全,并在流水線深度、訪存回填、緩存復(fù)用等細節(jié)上持續(xù)優(yōu)化最佳實踐。

TileLang-TPU 正在做開源前的代碼清理與文檔化的工作,它的意義并不在于“多了一個后端”,而在于“少了很多重復(fù)”,當(dāng)同一套算子前端可以映射到更多芯片時,碎片化就不再是阻力,而會成為競爭力,讓不同架構(gòu)以各自所長服務(wù)更大的模型與更廣的場景,而不是把資源消耗在移植與改寫上。

再次感謝來自北大、復(fù)旦、山大等高校的研發(fā)團隊在TileLang-TPU上所做的前瞻性工作,后續(xù)的開源倉庫將附帶清晰的示例與文檔,支持以標準化方式擴展原語、以嚴謹?shù)墓こ虡藴蕦崿F(xiàn)“一次改寫、多平臺復(fù)用”的目標。TileLang-TPU的成功驗證,將進一步加深算能與高校、開源社區(qū)的合作深度,為完善國產(chǎn)芯片軟件棧打造一個經(jīng)典范式。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39707

    瀏覽量

    301302
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    170

    瀏覽量

    21653
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    835

    瀏覽量

    3249
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    DeepSeek V3.1發(fā)布!擁抱國產(chǎn)力芯片

    架構(gòu)到Agent能力突破,從API價格調(diào)整到國產(chǎn)芯片生態(tài)共建,DeepSeek V3.1的發(fā)布標志著中國AI產(chǎn)業(yè)進入技術(shù)突破與產(chǎn)業(yè)落地協(xié)同發(fā)展的新階段。 ? 圖:DeepSeek正式發(fā)布
    的頭像 發(fā)表于 08-23 07:55 ?1.7w次閱讀
    <b class='flag-5'>DeepSeek</b> V3.1發(fā)布!<b class='flag-5'>擁抱</b>國產(chǎn)<b class='flag-5'>算</b>力芯片

    摩爾線程正式開源TileLang-MUSA項目

    近日,摩爾線程正式開源TileLang-MUSA項目,實現(xiàn)對TileLang編程語言的完整支持。該項目已成功在摩爾線程多代全功能GPU上完成功能驗證與特性開發(fā),旨在通過高層抽象與編譯器優(yōu)化,大幅降低開發(fā)門檻,為國產(chǎn)
    的頭像 發(fā)表于 02-11 16:57 ?1230次閱讀

    北大團隊最新研究:AI芯片力提升數(shù)倍,效提升超90倍

    電子發(fā)燒友網(wǎng)綜合報道 2026年1月,國際頂級學(xué)術(shù)期刊《自然·電子》刊發(fā)的一項研究成果,讓全球半導(dǎo)體與力領(lǐng)域為之矚目——北京大學(xué)人工智能研究院陶耀宇研究員、集成電路學(xué)院楊玉超教授團隊,在國際上
    的頭像 發(fā)表于 01-15 09:31 ?1040次閱讀

    北大學(xué)以開源技術(shù)鋪就人才與產(chǎn)業(yè)共贏之路

    當(dāng)開源浪潮席卷全球科技領(lǐng)域,成為技術(shù)創(chuàng)新與產(chǎn)業(yè)升級的核心引擎,一所地方高校如何憑借前瞻布局與務(wù)實行動,在開源生態(tài)中占據(jù)重要席位,既培育出頂尖創(chuàng)新人才,又產(chǎn)出服務(wù)產(chǎn)業(yè)的硬核成果?中
    的頭像 發(fā)表于 01-07 10:30 ?407次閱讀

    北大學(xué)開源鴻蒙技術(shù)俱樂部正式揭牌成立

    ”在東北大學(xué)渾南校區(qū)成功舉辦。 嘉賓合影 東北大學(xué)黨委常委、副校長王輝出席活動并致辭。王輝表示,立足國家戰(zhàn)略布局,發(fā)展開源生態(tài)、鍛造自主可控核心技術(shù)人才隊伍,是推動科技自立自強的關(guān)鍵一
    的頭像 發(fā)表于 10-31 10:43 ?774次閱讀
    東<b class='flag-5'>北大</b>學(xué)<b class='flag-5'>開源</b>鴻蒙技術(shù)俱樂部正式揭牌成立

    復(fù)旦大學(xué)探索開源人才發(fā)展新模式

    復(fù)旦大學(xué)作為一所與國家命運緊密相連的百年學(xué)府,始終將服務(wù)國家戰(zhàn)略需求、培養(yǎng)拔尖創(chuàng)新人才作為核心使命。在科研領(lǐng)域,以敢為人先、開放協(xié)作的姿態(tài),探索著高校與產(chǎn)業(yè)、社區(qū)聯(lián)動的創(chuàng)新路徑。近年來,復(fù)旦大學(xué)圍繞開源
    的頭像 發(fā)表于 10-17 11:05 ?680次閱讀

    探秘安全生產(chǎn)預(yù)警預(yù)測系統(tǒng)的五大頂尖平臺

    探秘安全生產(chǎn)預(yù)警預(yù)測系統(tǒng)的五大頂尖平臺
    的頭像 發(fā)表于 10-16 09:56 ?1270次閱讀
    探秘安全生產(chǎn)預(yù)警預(yù)測系統(tǒng)的五<b class='flag-5'>大頂尖</b>平臺

    沐曦曦云C系列產(chǎn)品已支持TileLang

    近日,DeepSeek宣布在其新版本中擁抱國產(chǎn)GPU語言TileLang,引發(fā)業(yè)界廣泛關(guān)注。作為國產(chǎn)高性能GPU的代表,沐曦曦云C系列產(chǎn)品已率先在這一新興開源社區(qū)獲得支持。
    的頭像 發(fā)表于 10-14 09:25 ?1178次閱讀
    沐曦曦云C系列產(chǎn)品已支持<b class='flag-5'>TileLang</b>

    邊緣計算AI硬件如何接入DeepSeek嗎?需要具備哪些條件?

    2025年伊始,一款來自中國初創(chuàng)公司“深度求索”的AI大模型DeepSeek橫空出世,驚艷全球。DeepSeek厲害之處在于,在中國被外國芯片封鎖的背景下,在性能上接近美國頂尖AI模型,但研發(fā)
    的頭像 發(fā)表于 08-21 10:30 ?1899次閱讀
    邊緣計算AI硬件如何<b class='flag-5'>接入</b><b class='flag-5'>DeepSeek</b>嗎?需要具備哪些條件?

    接入DeepSeek后智慧場館的能力提升

    隨著人工智能技術(shù)的快速發(fā)展,以DeepSeek為代表的大模型技術(shù)正在為智慧場館建設(shè)帶來革命性的變革。通過接入DeepSeek的先進AI能力, 智慧場館 在運營管理、用戶體驗、安全保障等方面都實現(xiàn)了質(zhì)
    的頭像 發(fā)表于 04-02 11:57 ?588次閱讀

    TPU編程競賽|第二十屆研電賽杯賽啟動 -- 智,創(chuàng)見未來!

    第二十屆中國研究生電子設(shè)計競賽(以下簡稱“研電賽”)正式啟動,作為命題企業(yè)聚焦人工智能與邊緣計算前沿技術(shù),圍繞TPU硬件平臺與輕量化AIoT系統(tǒng)發(fā)布兩大創(chuàng)新賽題,涵蓋大模型邊緣部署、智能交互系統(tǒng)
    的頭像 發(fā)表于 04-01 17:33 ?1909次閱讀
    <b class='flag-5'>TPU</b>編程競賽|第二十屆研電賽<b class='flag-5'>算</b><b class='flag-5'>能</b>杯賽啟動 -- 智<b class='flag-5'>算</b>賦<b class='flag-5'>能</b>,創(chuàng)見未來!

    DeepSeek推動AI力需求:800G光模塊的關(guān)鍵作用

    隨著人工智能技術(shù)的飛速發(fā)展,AI力需求正以前所未有的速度增長。DeepSeek等大模型的訓(xùn)練與推理任務(wù)對力的需求持續(xù)攀升,直接推動了服務(wù)器、光通信設(shè)備以及數(shù)據(jù)中心基礎(chǔ)設(shè)施的升級。特別是在大規(guī)模
    發(fā)表于 03-25 12:00

    接入DeepSeek后智慧場館的全面提升

    隨著人工智能技術(shù)的快速發(fā)展,DeepSeek等先進AI平臺的接入為智慧場館帶來了顯著的升級和變革。智慧場館通過整合物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等技術(shù),實現(xiàn)了資源的高效配置和管理的智能化。而DeepSeek
    的頭像 發(fā)表于 03-21 10:52 ?748次閱讀

    聆思CSK6大模型語音開發(fā)板接入DeepSeek資料匯總(包含深度求索/火山引擎/硅基流動華為昇騰滿血版)

    本帖最后由 jf_40317719 于 2025-3-6 21:20 編輯 近期也有不少開發(fā)者想把自己的智能硬件接入DeepSeek大模型,本篇就以聆思CSK6大模型開發(fā)板接入DeepS
    發(fā)表于 03-06 17:02

    摩爾線程全面支持DeepSeek開源周成果

    DeepSeek開源周正式收官,作為國內(nèi)率先原生支持FP8計算精度的國產(chǎn)GPU企業(yè),摩爾線程迅速響應(yīng),并在短時間內(nèi),成功實現(xiàn)對DeepSeek各個開源項目的全面支持,涵蓋FlashML
    的頭像 發(fā)表于 03-04 10:06 ?1037次閱讀