91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

能效提升3倍!異構(gòu)計(jì)算架構(gòu)讓AI跑得更快更省電

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2025-05-25 01:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)異構(gòu)計(jì)算架構(gòu)通過集成多種不同類型的處理單元(如CPU、GPU、NPU、FPGA、DSP等),針對(duì)不同計(jì)算任務(wù)的特點(diǎn)進(jìn)行分工協(xié)作,從而在性能、能效和靈活性之間實(shí)現(xiàn)最優(yōu)平衡。它是應(yīng)對(duì)復(fù)雜計(jì)算需求的關(guān)鍵技術(shù)之一。

異構(gòu)計(jì)算架構(gòu)的核心優(yōu)勢(shì)

異構(gòu)計(jì)算架構(gòu)的核心要素主要包括多種計(jì)算單元結(jié)合、任務(wù)分配機(jī)制和協(xié)同工作機(jī)制。多種計(jì)算單元結(jié)合:結(jié)合不同類型的處理單元,如CPU、GPU、TPU、FPGA等,每種單元針對(duì)特定任務(wù)或工作負(fù)載進(jìn)行優(yōu)化。例如CPU擅長(zhǎng)處理邏輯判斷、控制流程以及多樣化的通用任務(wù);GPU擁有大量并行處理單元,擅長(zhǎng)圖像、視頻、深度學(xué)習(xí)等大規(guī)模數(shù)據(jù)運(yùn)算;FPGA/ASIC可根據(jù)特定算法進(jìn)行高度定制,在功耗和實(shí)時(shí)性方面有優(yōu)勢(shì)。

任務(wù)分配機(jī)制:通過將不同類型的處理單元分配給不同的任務(wù),異構(gòu)架構(gòu)可以提高系統(tǒng)整體的能效比和性能,實(shí)現(xiàn)任務(wù)的并行處理和優(yōu)化。系統(tǒng)會(huì)根據(jù)工作負(fù)載類型將任務(wù)分配給最適合的硬件單元,讓整體資源得到最大程度的利用。

協(xié)同工作機(jī)制:異構(gòu)計(jì)算并非讓各個(gè)處理單元“各自為政”,而是需要一個(gè)良好的編程框架和通訊機(jī)制,保證不同單元之間的數(shù)據(jù)傳遞和任務(wù)調(diào)度高效有序。例如采用共享或?qū)S酶咚倬彺妗⒏咚倩ヂ?lián)接口、統(tǒng)一編程模型或驅(qū)動(dòng)層抽象等方式。

異構(gòu)計(jì)算的優(yōu)勢(shì)在于性能的提升、能效比優(yōu)化、適應(yīng)多樣化需求,縮短開發(fā)周期。性能提升,通過利用多種優(yōu)化的處理單元,異構(gòu)架構(gòu)可以顯著提升系統(tǒng)的整體性能和響應(yīng)速度。例如在深度學(xué)習(xí)任務(wù)中,GPU的并行計(jì)算能力能夠顯著加速模型訓(xùn)練,減少訓(xùn)練時(shí)間,從而在大規(guī)模數(shù)據(jù)集的處理上帶來極大的性能提升。

能效比優(yōu)化,針對(duì)不同類型的工作負(fù)載分配適當(dāng)?shù)奶幚韱卧?,異?gòu)架構(gòu)可以在相同功耗下提供更高的計(jì)算能力。例如CPU在處理計(jì)算密集型任務(wù)時(shí)效率較低,而GPU則能在這些任務(wù)中提供更高效的計(jì)算,進(jìn)而減少能源消耗。同時(shí),F(xiàn)PGA等硬件能夠根據(jù)任務(wù)的需要進(jìn)行定制,進(jìn)一步優(yōu)化性能與能效。

適應(yīng)多樣化需求,支持多種應(yīng)用需求,從科學(xué)計(jì)算到深度學(xué)習(xí),異構(gòu)架構(gòu)可以靈活調(diào)整以滿足不同的計(jì)算和數(shù)據(jù)處理需求。

縮短開發(fā)周期,開發(fā)者可以利用現(xiàn)有硬件資源,根據(jù)任務(wù)需求快速選擇合適的硬件加速方案,無需重新設(shè)計(jì)專用硬件系統(tǒng)。這不僅節(jié)省了開發(fā)時(shí)間,也降低了設(shè)計(jì)和開發(fā)的成本,從而加速了產(chǎn)品的推出。

異構(gòu)計(jì)算架構(gòu)的典型案例

下面是列舉一些異構(gòu)計(jì)算架構(gòu)的典型案例,展示如何通過整合多種處理單元(CPU、GPU、NPU、FPGA等)實(shí)現(xiàn)性能、能效和靈活性的協(xié)同優(yōu)化。

智能手機(jī)領(lǐng)域,如蘋果M1 Ultra,該芯片包含CPU、GPU、NPU多個(gè)單元,8核(4性能核+4能效核)CPU處理通用任務(wù),16核GPU加速圖形渲染和機(jī)器學(xué)習(xí)推理,16核專用加速器NPU,支持實(shí)時(shí)影像處理(如電影模式視頻分割)。

在協(xié)作方面,視頻處理方面,CPU調(diào)度任務(wù),GPU加速特效渲染,NPU實(shí)時(shí)分析人臉焦點(diǎn)。在能效優(yōu)化方面,能效核處理后臺(tái)任務(wù),性能核專注高負(fù)載場(chǎng)景。相比傳統(tǒng)SoC,M1 Ultra在AI任務(wù)(如實(shí)時(shí)語義分割)能效提升3倍,續(xù)航延長(zhǎng)20%。

智能駕駛領(lǐng)域,如特斯拉HW4.0,該芯片架構(gòu)包含GPU、NPU、FPGA單元,AMD定制GPU處理圖形渲染和傳感器融合,自研ASIC(Hardware 4.0)加速BEV(鳥瞰圖)感知和路徑規(guī)劃,F(xiàn)PGA處理實(shí)時(shí)雷達(dá)信號(hào)濾波。

在協(xié)作方面,感知層方面,NPU并行處理8攝像頭+雷達(dá)數(shù)據(jù),輸出目標(biāo)檢測(cè)結(jié)果;決策層方面,GPU模擬駕駛場(chǎng)景,CPU執(zhí)行車輛控制指令。該架構(gòu)設(shè)計(jì)具有明顯成效,如延遲降低至20ms以下,支持純視覺方案的FSD(Full Self-Driving)功能。

數(shù)據(jù)中心領(lǐng)域,如NVIDIA DGX H100,該芯片架構(gòu)包含CPU、GPU、DPU單元,AMD EPYC Genoa處理I/O和系統(tǒng)管理,8塊H100 GPU(NVLink互聯(lián))加速AI訓(xùn)練,BlueField-3DPU卸載網(wǎng)絡(luò)和存儲(chǔ)任務(wù),釋放GPU算力。在協(xié)作方面,訓(xùn)練階段,GPU執(zhí)行矩陣運(yùn)算,DPU預(yù)處理數(shù)據(jù)(如壓縮/解密);推理階段,GPU+CPU協(xié)同處理低延遲請(qǐng)求(如實(shí)時(shí)推薦系統(tǒng))。該架構(gòu)的成效體現(xiàn)在,訓(xùn)練萬億參數(shù)模型效率提升90%,能效比達(dá)30 TFLOPS/W。

邊緣計(jì)算領(lǐng)域,如谷歌Edge TPU,采用專用ASIC搭載協(xié)處理器,Edge TPU僅支持INT8量化模型,針對(duì)邊緣推理優(yōu)化,低功耗MCU(Cortex-M)管理傳感器數(shù)據(jù)輸入。在協(xié)作方面,預(yù)處理方面,MCU完成數(shù)據(jù)濾波和格式轉(zhuǎn)換,在推理方面,Edge TPU執(zhí)行MobileNet-SSD模型(物體檢測(cè)),延遲<10ms。相比通用芯片,功耗降低75%,體積縮小50%。

小結(jié):異構(gòu)計(jì)算架構(gòu)通過任務(wù)-硬件的精準(zhǔn)匹配,在性能、功耗、成本等關(guān)鍵指標(biāo)上實(shí)現(xiàn)突破,成為高性能計(jì)算、AI、邊緣計(jì)算等領(lǐng)域的核心基礎(chǔ)設(shè)施。未來,隨著Chiplet、存算一體等技術(shù)的融合,異構(gòu)計(jì)算將進(jìn)一步釋放硬件潛力,推動(dòng)智能計(jì)算向更高能效、更低延遲發(fā)展。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39707

    瀏覽量

    301302
  • 架構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    532

    瀏覽量

    26585
  • 異構(gòu)
    +關(guān)注

    關(guān)注

    0

    文章

    47

    瀏覽量

    13542
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NORDIC AI的好處

    提升,適合音頻、圖像和高采樣率傳感器等更重的 AI 負(fù)載。[Axon NPU 技術(shù)頁(yè)] 模型更小、更快、
    發(fā)表于 01-31 23:16

    北大團(tuán)隊(duì)最新研究:AI芯片算力提升數(shù)倍,提升超90

    首次實(shí)現(xiàn)后摩爾新器件異質(zhì)集成的多物理域融合傅里葉變換系統(tǒng)。 ? 這一全新計(jì)算架構(gòu)將傅里葉變換計(jì)算速度從當(dāng)前每秒約1300億次提升至每秒約5000億次,算力
    的頭像 發(fā)表于 01-15 09:31 ?1040次閱讀

    IBM Rhapsody AI 助手:系統(tǒng)工程智能

    IBM Rhapsody AI 能力的加入,標(biāo)志著系統(tǒng)工程正逐步邁入智能化新階段。它模型不再只是“被動(dòng)表達(dá)設(shè)計(jì)意圖”的工具,而成為理解、推理、
    的頭像 發(fā)表于 01-06 11:34 ?287次閱讀
    IBM Rhapsody <b class='flag-5'>AI</b> 助手:<b class='flag-5'>讓</b>系統(tǒng)工程<b class='flag-5'>更</b>智能

    亞馬遜發(fā)布新一代AI芯片Trainium3,性能提升4

    Trainium 4的開發(fā)計(jì)劃。亞馬遜表示,這款芯片能夠比英偉達(dá)市場(chǎng)領(lǐng)先的圖形處理單元(GPU)更便宜、更高效地驅(qū)動(dòng)AI模型背后的密集計(jì)算。 ? ? 作為亞馬遜首款3納米工藝AI芯片,
    的頭像 發(fā)表于 12-09 08:37 ?8549次閱讀
    亞馬遜發(fā)布新一代<b class='flag-5'>AI</b>芯片Trainium<b class='flag-5'>3</b>,性能<b class='flag-5'>提升</b>4<b class='flag-5'>倍</b>

    PCIe協(xié)議分析儀測(cè)試哪些設(shè)備?

    PCIe協(xié)議分析儀測(cè)試多種依賴PCIe總線進(jìn)行高速數(shù)據(jù)傳輸?shù)脑O(shè)備,其測(cè)試范圍覆蓋計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)及異構(gòu)計(jì)算等多個(gè)領(lǐng)域,具體設(shè)備類型及測(cè)試場(chǎng)景如下:一、核心計(jì)算設(shè)備 GPU(圖形處理器
    發(fā)表于 07-25 14:09

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    數(shù)據(jù)中挖掘有價(jià)值信息,這也我意識(shí)到架構(gòu)設(shè)計(jì)對(duì)模型性能起著根本性作用,是 AI 具備強(qiáng)大能力的 “骨骼” 支撐。 二、流水線并行 書中關(guān)于流水線并行的內(nèi)容,展現(xiàn)了提升
    發(fā)表于 07-20 15:07

    異構(gòu)計(jì)算構(gòu)建智能、更高效的AI未來

    人工智能 (AI) 不再只是一個(gè)科研課題,它已然成為我們?nèi)粘I畹囊徊糠?。從個(gè)性化醫(yī)療、智能可穿戴設(shè)備,到沉浸式數(shù)字娛樂以及自主機(jī)器人,AI 正在重塑我們生活、工作和創(chuàng)新的方式。然而,隨著 AI 應(yīng)用日益復(fù)雜,底層的基礎(chǔ)設(shè)施也必
    的頭像 發(fā)表于 06-26 09:44 ?1047次閱讀

    異構(gòu)計(jì)算解決方案(兼容不同硬件架構(gòu)

    異構(gòu)計(jì)算解決方案通過整合不同類型處理器(如CPU、GPU、NPU、FPGA等),實(shí)現(xiàn)硬件資源的高效協(xié)同與兼容,滿足多樣化計(jì)算需求。其核心技術(shù)與實(shí)踐方案如下: 一、硬件架構(gòu)設(shè)計(jì) 異構(gòu)處理
    的頭像 發(fā)表于 06-23 07:40 ?845次閱讀

    如何釋放異構(gòu)計(jì)算的潛能?Imagination與Baya Systems的系統(tǒng)架構(gòu)實(shí)踐啟示

    報(bào)告作者:PallaviSharma,Imaginaiton產(chǎn)品管理總監(jiān)Dr.EricNorige,BayaSystems首席軟件架構(gòu)師關(guān)注Imagination公眾號(hào),消息框發(fā)送【異構(gòu)計(jì)算】,即可
    的頭像 發(fā)表于 06-13 08:33 ?1120次閱讀
    如何釋放<b class='flag-5'>異構(gòu)計(jì)算</b>的潛能?Imagination與Baya Systems的系統(tǒng)<b class='flag-5'>架構(gòu)</b>實(shí)踐啟示

    Imagination與澎峰科技攜手推動(dòng)GPU+AI解決方案,共拓計(jì)算生態(tài)

    近日, Imagination Technologies 與國(guó)內(nèi)領(lǐng)先的異構(gòu)計(jì)算軟件與智算混合云服務(wù)提供商 澎峰科技 ( PerfXLab )正式簽署合作備忘錄( MoU ),圍繞 GPU 與 AI
    發(fā)表于 05-21 09:40 ?1216次閱讀

    比和算力提升的衡量方法

    一、比的衡量方法 定義與計(jì)算公式? 比(EER)定義為制冷量與輸入功率的比值,計(jì)算公式為
    的頭像 發(fā)表于 04-28 07:47 ?3238次閱讀
    <b class='flag-5'>能</b><b class='flag-5'>效</b>比和算力<b class='flag-5'>提升</b>的衡量方法

    RAKsmart智能算力架構(gòu)異構(gòu)計(jì)算+低時(shí)延網(wǎng)絡(luò)驅(qū)動(dòng)企業(yè)AI訓(xùn)練范式升級(jí)

    AI大模型參數(shù)量突破萬億、多模態(tài)應(yīng)用爆發(fā)的今天,企業(yè)AI訓(xùn)練正面臨算力效率與成本的雙重挑戰(zhàn)。RAKsmart推出的智能算力架構(gòu),以異構(gòu)計(jì)算資源池化與超低時(shí)延網(wǎng)絡(luò)為核心,重構(gòu)
    的頭像 發(fā)表于 04-17 09:29 ?758次閱讀

    RK3588核心板在邊緣AI計(jì)算中的顛覆性優(yōu)勢(shì)與場(chǎng)景落地

    框架部署需大量手動(dòng)優(yōu)化,延誤項(xiàng)目交付。 明遠(yuǎn)智睿RK3588核心板的核心優(yōu)勢(shì) 異構(gòu)計(jì)算架構(gòu): 采用4×Cortex-A76(2.4GHz)+4×Cortex-A55(1.8GHz)設(shè)計(jì),兼顧高性能
    發(fā)表于 04-15 10:48

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件端側(cè)AI模型接入得心應(yīng)手

    猛增50,將訓(xùn)練時(shí)間從一整天縮短至半小時(shí)。更快的端側(cè)LoRA訓(xùn)練,端側(cè)AI基于用戶端側(cè)數(shù)據(jù)提升個(gè)性化體驗(yàn),
    發(fā)表于 04-13 19:52

    新品發(fā)布 | HZ-EVM-RK3562開發(fā)板:突破算力與平衡,賦邊緣AI計(jì)算

    在人工智能與物聯(lián)網(wǎng)技術(shù)深度融合的今天,邊緣設(shè)備正面臨算力、與實(shí)時(shí)性的三重挑戰(zhàn)。傳統(tǒng)嵌入式方案往往在性能與功耗之間艱難權(quán)衡,而合眾恒躍最新推出的HZ-EVM-RK3562開發(fā)板,通過異構(gòu)計(jì)算
    的頭像 發(fā)表于 04-12 09:02 ?2025次閱讀
    新品發(fā)布 | HZ-EVM-RK3562開發(fā)板:突破算力與<b class='flag-5'>能</b><b class='flag-5'>效</b>平衡,賦<b class='flag-5'>能</b>邊緣<b class='flag-5'>AI</b><b class='flag-5'>計(jì)算</b>