91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

從英偉達到國產算力:一場必須打贏的“遷移之戰(zhàn)”

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2025-09-11 13:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在當今數(shù)字化時代,人工智能AI)技術正以前所未有的速度改變著我們的生活和工作方式。AI應用的廣泛落地離不開強大的算力支持,而GPU作為AI計算的核心硬件,一直是推動AI發(fā)展的關鍵力量。然而,隨著國際形勢的變化和技術競爭的加劇,依賴單一供應商的GPU芯片已經(jīng)無法滿足國內AI產業(yè)的長期發(fā)展需求。在這種背景下,將AI應用從英偉達顯卡遷移到國產顯卡,不僅是技術發(fā)展的必然選擇,更是保障我國AI產業(yè)安全和可持續(xù)發(fā)展的緊迫任務。

一、遷移的緊迫性和必要性

(一)國際形勢的挑戰(zhàn)

近年來,美國對中國的高科技產業(yè)實施了一系列限制措施,尤其是對高端AI芯片的出口禁令,嚴重影響了國內AI產業(yè)的正常發(fā)展。2024年12月3日,中國半導體行業(yè)協(xié)會等四大協(xié)會聯(lián)合發(fā)布聲明,呼吁企業(yè)謹慎采購美國芯片,并擴大與其他國家和地區(qū)芯片企業(yè)的合作。這一舉措凸顯了我國在AI芯片領域實現(xiàn)自主可控的緊迫性。

(二)技術自主可控的需求

依賴進口芯片不僅存在供應風險,還可能面臨技術封鎖和安全威脅。國產AI芯片的崛起為我國AI產業(yè)提供了新的選擇。通過將AI應用遷移到國產顯卡,可以有效降低對國外芯片的依賴,確保技術的自主可控,保障國家信息安全。

(三)國內市場的潛力

國內AI市場龐大且應用場景豐富,從智能安防到自動駕駛,從醫(yī)療影像到金融科技,AI技術的應用無處不在。國產顯卡的性能不斷提升,已經(jīng)具備了替代進口芯片的能力。將AI應用遷移到國產顯卡,不僅可以滿足國內市場的多樣化需求,還能為國產芯片的發(fā)展提供廣闊的市場空間。

二、遷移到底難在哪?

wKgZPGjCQl6AS3liAAPvl9_6Lw8245.png

痛點的核心在于缺乏一套基于國產顯卡的端到端遷移工具鏈和解決方案,支持算法人員無感知地從GPU遷移至國產算力。

三、JoyScale “零感知”遷移棧

京東云JoyScale異構算力管理平臺經(jīng)過在京東內場和外場萬卡集群打磨,完成了 40+ 主流模型遷移,沉淀出JoyScale 全棧方案,其核心思想是:

零侵入:算法代碼一行不改,僅通過后端切換完成遷移。

可驗證:每一步都有黃金對照(GPU 基線),誤差可量化、可回滾。

可擴展:新增芯片≈插件式接入,核心框架保持不變。

全鏈路:訓練→微調→推理→上線監(jiān)控,端到端覆蓋。

3.1 系統(tǒng)架構

wKgZPGjCQmuANdGHAALlGM2FWUk866.png

3.2 遷移方案

硬件適配

加速卡調度適配針對國產顯卡的卡間互聯(lián)技術,開發(fā)適配的調度插件。例如,昇騰910B的HCCS架構要求同一Pod內的處理器必須在同一HCCS環(huán)內,否則任務會失敗。

算子支持度分析通過工具(如Pytorch Profiler)提取GPU算子,與國產顯卡支持的API清單進行對比,對不支持的算子進行適配開發(fā)。

性能調優(yōu)結合國產顯卡的硬件特性,通過Profile獲取每個算子的執(zhí)行時間,對較慢算子進行精細優(yōu)化,通常要結合底層硬件架構特性進行優(yōu)化,例如數(shù)據(jù)對齊,轉換為連續(xù)內存等。同時也可以使用廠商API將多個算子進行融合以及轉換為子圖方式提交到加速卡等加速手段。

軟件適配

程序遷移將基于CUDA的代碼遷移到國產顯卡支持的框架。例如,將torch.cuda.xxx()接口替換為torch.npu.xxx()接口。

框架優(yōu)化在框架層為國產顯卡和英偉達GPU提供統(tǒng)一的API接口,實現(xiàn)了一套API下NPU和GPU用戶無感、0成本無縫切換訓練。

模型適配

模型量化通過模型量化技術,減少模型的計算量和存儲需求,提高在國產顯卡上的運行效率。

軟硬協(xié)同深度優(yōu)化:通過Triton編譯和CANN融合等技術對熱點算子(如flash attention、rotary_embedding、npu_matmul_add_fp32等)進行精細調優(yōu),實施鋸齒Attention、動態(tài)輸入拼接、全子圖下發(fā)以及重計算流水線的獨立調度和自適應重計算等深度優(yōu)化措施,實現(xiàn)了百卡 MFU達60%。同時,通過權重更新通信隱藏、CoC計算通信并行、啟發(fā)式自動并行策略搜索、BF16低精度通信和多機間RDMA通信等技術,達到了百卡擴展系數(shù)0.93,從而實現(xiàn)了千億至萬億參數(shù)模型訓練的近線性橫向擴展。

推理優(yōu)化

通過GE圖編譯優(yōu)化和ATB高性能算子技術對Paged Attention、Flash Attention、Sub_Mul_Concat等操作進行深度優(yōu)化,實現(xiàn)整圖下發(fā)能力,通過算子setup(workspace、tiling)、下發(fā)、計算實現(xiàn)流水線并行,有效隱藏了算子調度開銷。同時支持W8A8 SmoothQuant量化、W4A16 AWQ量化技術,顯著較少了計算量與訪存密度。

模型服務采用雙后端熱備,流量 5% → 30% → 100%逐級灰度上線國產算力,失敗率 > 0.1% 自動回滾英偉達GPU。

統(tǒng)一調度和監(jiān)控

自研基于云原生的萬卡級異構算力統(tǒng)一調度系統(tǒng),自動識別CPU NUMA和網(wǎng)絡拓撲,確保任務被分配到最優(yōu)的計算和網(wǎng)絡資源上,從而最大化任務的執(zhí)行效率。通過Gang調度、算力切分池化等技術提高集群的整體占用率。

支持可視化監(jiān)控體系,統(tǒng)一監(jiān)控異構顯卡的算力利用率、顯存利用率,以及AI負載的服務吞吐、失敗率、延時、token數(shù)等服務化指標。

四、典型落地場景

零售場景:利用多模態(tài)模型對商品視頻進行分析,抽取能夠表征視頻的一系列tag。從英偉達GPU無縫遷移到國產NPU,與GPU比對效果無明顯差異。在輸出Token數(shù)量一致的前提下,二者平均響應時長基本保持一致。

智能客服基于大模型的客服Agent助手,使用過往沉淀QA數(shù)據(jù)對模型進行微調,遷移到國產算力進行微調后,與基于英偉達GPU微調的模型分析結果相似,且96%問題分配下游處理路徑相同。

物流場景基于國產算力微調的模型與基于英偉達GPU微調的模型在物流地址解析等任務的訓練結果分別達到了91.03%與91.08%,二者表現(xiàn)基本一致,AI預分揀已上線多個省份,每天識別3萬條以上異常地址。

五、結語

將AI應用從英偉達顯卡遷移到國產顯卡,不僅是技術發(fā)展的必然選擇,更是保障我國AI產業(yè)安全和可持續(xù)發(fā)展的緊迫任務。遷移不是可選項,而是生存項!越早動手,窗口期越長。京東云JoyScale通過完整且成熟的遷移軟件堆棧,幫助客戶有效降低遷移成本,提高遷移效率,確保AI應用在國產顯卡上的高效運行,讓客戶更多地把精力更多放在算法創(chuàng)新上。京東云愿意與更多客戶攜手,一起把國產算力推向極致。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    23

    文章

    4100

    瀏覽量

    99332
  • 算力
    +關注

    關注

    2

    文章

    1558

    瀏覽量

    16789
  • 京東云
    +關注

    關注

    0

    文章

    206

    瀏覽量

    264
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    英偉達5萬億市值背后,是一場賭上未來的燒錢競賽

    需求下,各大云計算廠商不斷加大對AI基建的投資,大量購買卡。在10月29日的GTC大會上,英偉達CEO黃仁勛表示,公司新
    的頭像 發(fā)表于 11-02 11:18 ?1.1w次閱讀
    <b class='flag-5'>英偉</b>達5萬億市值背后,是<b class='flag-5'>一場</b>賭上未來的燒錢競賽

    “四平臺,芯片國產化率超九成,兼容8種國產AI芯片

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)4月11日消息,由中國移動承建的全國首個“四網(wǎng)絡調度平臺正式投入使用。四
    的頭像 發(fā)表于 04-13 00:03 ?4083次閱讀

    租賃市場爆發(fā),H20遭瘋搶!小心掉坑

    服務器租賃需求也在爆發(fā)式的增長,更出現(xiàn)了“機難求”的盛況。 ? AI 服務器告急,H20 芯片需求大漲 ? 近期,許多上市公司紛紛發(fā)布公告,計劃布局
    的頭像 發(fā)表于 04-04 00:13 ?3638次閱讀

    國產連接器如何抓住AI PC賽道紅利?

    當大模型推理云端降落到桌面,AI PC成為了科技硬件的“流量主角”。英偉達的、英特爾的芯片、聯(lián)想的整機,無不被置于聚光燈下。但在這些
    的頭像 發(fā)表于 03-04 10:03 ?196次閱讀
    <b class='flag-5'>國產</b>連接器如何抓住AI PC賽道紅利?

    “上天入?!敝?b class='flag-5'>算革命:“海風直連”海底數(shù)據(jù)中心開啟綠色新紀元

    數(shù)據(jù)中心在上海正式啟用。這個項目不僅是海洋工程領域的突破,更預示著一場深刻的能源與融合革命已悄然拉開序幕。01海底力心臟,開創(chuàng)綠色數(shù)據(jù)新時代在全球AI浪潮席卷下,
    的頭像 發(fā)表于 02-11 10:17 ?1947次閱讀
    “上天入?!敝?b class='flag-5'>算</b><b class='flag-5'>力</b>革命:“海風直連”海底數(shù)據(jù)中心開啟綠色<b class='flag-5'>算</b><b class='flag-5'>力</b>新紀元

    中國芯片的拐點時刻

    一場勻速追趕的馬拉松,而是一場"生存"到"反超"的懸崖攀登。#01產業(yè)裂變:靜悄悄的"革命"與結構性突破2025年的中國AI芯片市場,
    的頭像 發(fā)表于 01-31 07:00 ?1821次閱讀
    中國<b class='flag-5'>算</b><b class='flag-5'>力</b>芯片的拐點時刻

    告別“硬件軍備競賽”!華為云如何讓企業(yè)效率翻倍,成本減半?

    面對DRAM與NAND Flash價格持續(xù)飆升的市場環(huán)境,企業(yè)每分被浪費的都在成本壓力下被顯著放大。 當前,全球企業(yè)正經(jīng)歷一場硬件通脹的挑戰(zhàn):服務器采購成本顯著上升,交貨周期不斷
    的頭像 發(fā)表于 12-31 13:02 ?188次閱讀

    云端集中到邊緣分布:邊緣智如何重塑網(wǎng)絡布局

    隨著大模型推理延遲進入毫秒級時代,整個科技行業(yè)都意識到:網(wǎng)絡的規(guī)則正在被改寫。這場變革的核心,正是云端集中式計算向邊緣分布式智能的范式轉移。據(jù)行業(yè)多家分析機構綜合預測,全球AI基礎設施正面
    的頭像 發(fā)表于 12-25 11:34 ?489次閱讀
    <b class='flag-5'>從</b>云端集中到邊緣分布:邊緣智<b class='flag-5'>算</b>如何重塑<b class='flag-5'>算</b><b class='flag-5'>力</b>網(wǎng)絡布局

    湘軍,讓變成生產?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    640卡超節(jié)點問世:國產實現(xiàn)關鍵

    電子發(fā)燒友網(wǎng)綜合報道 2025年11月的烏鎮(zhèn),當全球互聯(lián)網(wǎng)精英還在熱議Web3.0的演進方向時,一場關于AI基礎設施的靜默革命,已在峰會現(xiàn)場的則發(fā)布中顯露崢嶸。會議現(xiàn)場,中科曙光
    的頭像 發(fā)表于 11-11 09:26 ?2340次閱讀

    “走出去”到“強起來”,中國出海三強的高端攻堅戰(zhàn)

    打贏全球高端化的一場“硬”仗
    的頭像 發(fā)表于 10-30 00:31 ?1400次閱讀
    <b class='flag-5'>從</b>“走出去”到“強起來”,中國出海三強的高端攻堅戰(zhàn)

    國產AI芯片真能扛住“內卷”?海思昇騰的這波操作藏了多少細節(jié)?

    最近行業(yè)都在說“是AI的命門”,但國產芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實測下來有點超出預期——7nm工藝下
    發(fā)表于 10-27 13:12

    行業(yè)資訊 I 當中國芯開上無人車 一場AI芯片與智駕的競速

    不迷路“缺芯少魂”到“上車入?!?,國產AI芯片正悄悄踩下智駕的“氮氣加速鍵”。但問題是——我們到底是在彎道超車,還是在懸崖飆車?一場三足鼎立+長尾逆襲的暗戰(zhàn)國產AI芯片早已不是“PP
    的頭像 發(fā)表于 09-26 23:32 ?3034次閱讀
    行業(yè)資訊 I 當中國芯開上無人車 <b class='flag-5'>一場</b>AI芯片與智駕的競速

    國產飛騰工控機重大突破:推動國產升級!

    當下,已成為衡量國家綜合實力和產業(yè)競爭的關鍵指標。隨著數(shù)字化轉型的加速,各行業(yè)對的需求呈爆發(fā)式增長,
    的頭像 發(fā)表于 08-22 10:07 ?504次閱讀

    中科曙光超智融合方案助力國產中心建設

    近期,位于魯中南地區(qū)的某大型中心正式啟動建設,標志著國產技術在該區(qū)域數(shù)字經(jīng)濟中的重要突破。該中心采用中科曙光“超智融合”方案,實現(xiàn)
    的頭像 發(fā)表于 07-31 17:13 ?1643次閱讀