91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

無(wú)縫替代GPU,讓FPGA來(lái)加速你的AI推理

電子設(shè)計(jì) ? 來(lái)源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2020-10-30 12:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如今,基于深度學(xué)習(xí)(DL)的人工智能AI)應(yīng)用越來(lái)越廣泛,不論是在與個(gè)人消費(fèi)者相關(guān)的智能家居、智能駕駛等領(lǐng)域,還是在視頻監(jiān)控、智慧城市等公共管理領(lǐng)域,我們都能看到其身影。

眾所周知,實(shí)施一個(gè)完整的 AI 應(yīng)用需要經(jīng)歷訓(xùn)練和推理兩個(gè)過(guò)程。所謂“訓(xùn)練”,就是我們要將大量的數(shù)據(jù)代入到神經(jīng)網(wǎng)絡(luò)模型中運(yùn)算并反復(fù)迭代,“教會(huì)”算法模型如何正確的工作,訓(xùn)練出一個(gè) DL 模型。而接下來(lái),我們就可以利用訓(xùn)練出來(lái)的模型來(lái)在線響應(yīng)用戶的需求,根據(jù)輸入的新數(shù)據(jù)做出正確而及時(shí)的決策判斷,這個(gè)過(guò)程就是“推理”。

通常來(lái)講,一個(gè) AI 應(yīng)用中“訓(xùn)練”只需要做一次——有時(shí)這個(gè)工作會(huì)交給第三方專(zhuān)業(yè)的且有充沛算力資源的團(tuán)隊(duì)去做,而應(yīng)用開(kāi)發(fā)工程師要做的則是將訓(xùn)練好的模型部署到特定的硬件平臺(tái)上,滿足目標(biāo)應(yīng)用場(chǎng)景中推理過(guò)程的需要。由于推理過(guò)程會(huì)直接聯(lián)系最終用戶,推理的準(zhǔn)確性和速度也會(huì)直接影響到用戶體驗(yàn)的好壞,因此如何有效地為 AI 推理做加速,也就成了當(dāng)下開(kāi)發(fā)者普遍關(guān)心的一個(gè)熱門(mén)的話題。


AI 推理加速,FPGA 勝出!

從硬件架構(gòu)來(lái)看,可以支持 AI 推理加速的有四個(gè)可選方案,它們分別是:CPU、GPU、FPGA 和 ASIC,如果對(duì)這幾類(lèi)器件的特性進(jìn)行比較,會(huì)發(fā)現(xiàn)按照從左到右的順序,器件的靈活性 / 適應(yīng)性是遞減的,而處理能力和性能功耗比則是遞增的。

CPU 是基于馮?諾依曼架構(gòu),雖然其很靈活,但由于存儲(chǔ)器訪問(wèn)往往要耗費(fèi)幾個(gè)時(shí)鐘周期才能執(zhí)行一個(gè)簡(jiǎn)單的任務(wù),延遲會(huì)很長(zhǎng),應(yīng)對(duì)神經(jīng)網(wǎng)絡(luò)(NN)這種計(jì)算密集型的任務(wù),功耗也會(huì)比較大,顯然最不適合做 AI 推理。

GPU 具有強(qiáng)大的數(shù)據(jù)并行處理能力,在做海量數(shù)據(jù)訓(xùn)練方面優(yōu)勢(shì)明顯,而推理計(jì)算通常一次只對(duì)一個(gè)輸入項(xiàng)進(jìn)行處理的應(yīng)用,GPU 并行計(jì)算的優(yōu)勢(shì)發(fā)揮不出來(lái),再加上其功耗相對(duì)較大,所以在 AI 推理方面也不是最優(yōu)選擇。

從高性能和低功耗的角度來(lái)看,定制的 ASIC 似乎是一種理想的解決方案,但其開(kāi)發(fā)周期長(zhǎng)、費(fèi)用高,對(duì)于總是處于快速演進(jìn)和迭代中的 DL 和 NN 算法來(lái)說(shuō),靈活性嚴(yán)重受限,風(fēng)險(xiǎn)太大,在 AI 推理中人們通常不會(huì)考慮它。

所以我們的名單上只剩下 FPGA 了。這些年來(lái)大家對(duì)于 FPGA 快速、靈活和高效的優(yōu)點(diǎn)認(rèn)識(shí)越來(lái)越深入,硬件可編程的特性使其能夠針對(duì) DL 和 NN 處理的需要做針對(duì)性的優(yōu)化,提供充足的算力,而同時(shí)又保持了足夠的靈活性。今天基于 FPGA 的異構(gòu)計(jì)算平臺(tái),除了可編程邏輯,還會(huì)集成多個(gè) Arm 處理器內(nèi)核、DSP、片上存儲(chǔ)器等資源,DL 所需的處理能力可以很好地映射到這些 FPGA 資源上,而且所有這些資源都可以并行工作 ,即每個(gè)時(shí)鐘周期可觸發(fā)多達(dá)數(shù)百萬(wàn)個(gè)同時(shí)的操作,這對(duì)于 AI 推理是再合適不過(guò)了。

與 CPU 和 GPU 相比,F(xiàn)PGA 在 AI 推理應(yīng)用方面的優(yōu)勢(shì)還表現(xiàn)在:

不受數(shù)據(jù)類(lèi)型的限制,比如它可以處理非標(biāo)準(zhǔn)的低精度數(shù)據(jù),從而提高數(shù)據(jù)處理的吞吐量。


功耗更低,針對(duì)相同的 NN 計(jì)算,F(xiàn)PGA 與 CPU/GPU 相比平均功耗低 5~10 倍。


可通過(guò)重新編程以適應(yīng)不同任務(wù)的需要,這種靈活性對(duì)于適應(yīng)持續(xù)發(fā)展中的 DL 和 NN 算法尤為關(guān)鍵。


應(yīng)用范圍廣,從云端到邊緣端的 AI 推理工作,都可勝任。

總之一句話,在 AI 推理計(jì)算的競(jìng)爭(zhēng)中,F(xiàn)PGA 的勝出沒(méi)有懸念。


GPU 無(wú)縫對(duì)接,F(xiàn)PGA 即插即用

不過(guò),雖然 FPGA 看上去“真香”,但是很多 AI 應(yīng)用的開(kāi)發(fā)者還是對(duì)其“敬而遠(yuǎn)之”,究其原因最重要的一點(diǎn)就是——FPGA 上手使用太難了!

難點(diǎn)主要體現(xiàn)在兩個(gè)方面:

首先,對(duì) FPGA 進(jìn)行編程需要特定的技能和知識(shí),要熟悉專(zhuān)門(mén)的硬件編程語(yǔ)言,還要熟練使用 FPGA 的特定工具,才能通過(guò)綜合、布局和布線等復(fù)雜的步驟來(lái)編譯設(shè)計(jì)。這對(duì)于很多嵌入式工程師來(lái)說(shuō),完全是一套他們所不熟悉的“語(yǔ)言”。


再有,因?yàn)楹芏?DL 模型是在 GPU 等計(jì)算架構(gòu)上訓(xùn)練出來(lái)的,這些訓(xùn)練好的模型移植、部署到 FPGA 上時(shí),很可能會(huì)遇到需要重新訓(xùn)練和調(diào)整參數(shù)等問(wèn)題,這要求開(kāi)發(fā)者有專(zhuān)門(mén)的 AI 相關(guān)的知識(shí)和技能。

如何能夠降低大家在 AI 推理中使用 FPGA 的門(mén)檻?在這方面,Mipsology 公司給我們帶來(lái)了一個(gè)“驚喜”——該公司開(kāi)發(fā)了一種基于 FPGA 的深度學(xué)習(xí)推理引擎 Zebra,可以讓開(kāi)發(fā)者在“零努力(Zero Effort)”的情況下,對(duì) GPU 訓(xùn)練的模型代碼進(jìn)行轉(zhuǎn)換,使其能夠在 FPGA 上運(yùn)行,而無(wú)需改寫(xiě)任何代碼或者進(jìn)行重新訓(xùn)練。

這也就意味著,調(diào)整 NN 參數(shù)甚至改變神經(jīng)網(wǎng)絡(luò)并不需要強(qiáng)制重新編譯 FPGA,而這些重新編譯工作可能需要花費(fèi)數(shù)小時(shí)、數(shù)天,甚至更長(zhǎng)時(shí)間??梢哉f(shuō),Zebra 讓 FPGA 對(duì)于開(kāi)發(fā)者成了“透明”的,他們可以在 NN 模型訓(xùn)練好之后,無(wú)縫地從 CPU 或 GPU 切換到 FPGA 進(jìn)行推理,而無(wú)需花費(fèi)更多的時(shí)間!

目前,Zebra 可以支持 Caffe、Caffe2、MXNet 和 TensorFlow 等主流 NN 框架。在硬件方面,Zebra 已經(jīng)可以完美地支持 Xilinx 的系列加速卡,如 Alveo U200、Alveo U250 和 Alveo U50 等。對(duì)于開(kāi)發(fā)者來(lái)說(shuō),“一旦將 FPGA 板插入 PC,只需一個(gè) Linux 命令”,F(xiàn)PGA 就能夠代替 CPU 或 GPU 立即進(jìn)行無(wú)縫的推斷,可以在更低的功耗下將計(jì)算速度提高一個(gè)數(shù)量級(jí)。對(duì)用戶來(lái)說(shuō),這無(wú)疑是一種即插即用的體驗(yàn)。

強(qiáng)強(qiáng)聯(lián)手,全生態(tài)支持

更好的消息是:為了能夠加速更多 AI 應(yīng)用的落地,安富利亞洲和 Mipsology 達(dá)成了合作協(xié)議,將向其亞太區(qū)客戶推廣和銷(xiāo)售 Mipsology 這一獨(dú)特的 FPGA 深度學(xué)習(xí)推理加速軟件 —— Zebra。

這對(duì)于合作的雙方無(wú)疑是一個(gè)雙贏的局面:對(duì)于 Mipsology 來(lái)說(shuō),可以讓 Zebra 這個(gè)創(chuàng)新的工具以更快的速度覆蓋和惠及更多的開(kāi)發(fā)者;對(duì)安富利來(lái)說(shuō),此舉也進(jìn)一步擴(kuò)展了自身強(qiáng)大的物聯(lián)網(wǎng)生態(tài)系統(tǒng),為客戶帶來(lái)更大的價(jià)值,為希望部署 DL 的客戶提供一整套全面的服務(wù),包括硬件、軟件、系統(tǒng)集成、應(yīng)用開(kāi)發(fā)、設(shè)計(jì)鏈和專(zhuān)業(yè)技術(shù)。

安富利推理加速成功應(yīng)用案例:智能網(wǎng)絡(luò)監(jiān)控平臺(tái) AI Bluebox

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5204

    瀏覽量

    135573
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40001

    瀏覽量

    301635
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    從英偉達(dá)電話會(huì)看Agentic AI推理FPGA價(jià)值

    2026年2月,英偉達(dá)發(fā)布2026財(cái)年Q4財(cái)報(bào):營(yíng)收681億美元,同比增長(zhǎng)73%,數(shù)據(jù)中心業(yè)務(wù)增長(zhǎng)75%——預(yù)期中的超預(yù)期。更值得關(guān)注的,是電話會(huì)中反復(fù)出現(xiàn)的幾個(gè)關(guān)鍵詞:Agentic AI推理
    的頭像 發(fā)表于 03-04 17:07 ?1089次閱讀
    從英偉達(dá)電話會(huì)看Agentic <b class='flag-5'>AI</b><b class='flag-5'>推理</b>與<b class='flag-5'>FPGA</b>價(jià)值

    AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴

    領(lǐng)域占據(jù)主導(dǎo),其GPU憑借強(qiáng)大的海量數(shù)據(jù)處理能力,成為全球AI爆炸式增長(zhǎng)的重要基石。但隨著AI不斷演進(jìn),重點(diǎn)正從大規(guī)模訓(xùn)練轉(zhuǎn)向?qū)σ延?xùn)練模型的推理和推斷,
    的頭像 發(fā)表于 02-03 17:15 ?2964次閱讀

    使用NORDIC AI的好處

    ; 自定義 Neuton 模型博客] Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的專(zhuān)用 AI 加速器,對(duì) TensorFlow Lite 模型可實(shí)現(xiàn)最高約 15× 推理
    發(fā)表于 01-31 23:16

    端側(cè)推理FPGA正崛起為“非GPU”陣營(yíng)的中堅(jiān)力量

    隨著AI應(yīng)用的迅猛發(fā)展,端側(cè)推理正受到前所未有的關(guān)注。與數(shù)據(jù)中心對(duì)極致吞吐的追求不同,端側(cè)推理更聚焦于低延遲、低功耗與高可靠性,其應(yīng)用場(chǎng)景呈現(xiàn)出高度分散、類(lèi)型多樣的特征。從工業(yè)現(xiàn)場(chǎng)到車(chē)載系統(tǒng),再到
    的頭像 發(fā)表于 01-23 17:17 ?2138次閱讀
    端側(cè)<b class='flag-5'>推理</b>:<b class='flag-5'>FPGA</b>正崛起為“非<b class='flag-5'>GPU</b>”陣營(yíng)的中堅(jiān)力量

    AI推理需求爆發(fā)!高通首秀重磅產(chǎn)品,國(guó)產(chǎn)GPU的自主牌怎么打?

    推出,直接推動(dòng)AI推理市場(chǎng)的上揚(yáng),未來(lái)3-5年都是AI推理領(lǐng)域的規(guī)模應(yīng)用階段。不管是行業(yè)應(yīng)用,還是算力相關(guān)的芯片,都將大規(guī)模的圍繞AI
    的頭像 發(fā)表于 10-30 00:46 ?1.4w次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>需求爆發(fā)!高通首秀重磅產(chǎn)品,國(guó)產(chǎn)<b class='flag-5'>GPU</b>的自主牌怎么打?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    算法 5.2加速矩陣乘法的芯片架構(gòu) ①新的矩陣乘法器架構(gòu) ②基于RISC-V的矩陣乘法擴(kuò)展指令集 ③用信息論的思想來(lái)減少AI推理計(jì)算量 三、用于邊緣側(cè)訓(xùn)練或推理
    發(fā)表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)

    的工作嗎? 從書(shū)中也了解到了AI芯片都有哪些?像CPU、GPUFPGA、ASIC都是AI芯片。 其他的還是知道的,FPGA屬于
    發(fā)表于 09-12 16:07

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    創(chuàng)新技術(shù)——UCM推理記憶數(shù)據(jù)管理器,旨在推動(dòng)AI推理體驗(yàn)升級(jí),提升推理性價(jià)比,加速AI商業(yè)正循
    的頭像 發(fā)表于 08-15 09:45 ?1248次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    模態(tài)的技術(shù)特性,DeepSeek正加速推動(dòng)AI在金融、政務(wù)、科研及網(wǎng)絡(luò)智能化等關(guān)鍵領(lǐng)域的深度應(yīng)用。 信而泰:AI推理引擎賦能網(wǎng)絡(luò)智能診斷新范式信而泰深度整合DeepSeek-R1大模型
    發(fā)表于 07-16 15:29

    大模型推理顯存和計(jì)算量估計(jì)方法研究

    GPU、FPGA等硬件加速。通過(guò)分析硬件加速器的性能參數(shù),可以估算模型在硬件加速下的計(jì)算量。 四、實(shí)驗(yàn)與分析 為了驗(yàn)證上述估計(jì)方法的有效性,
    發(fā)表于 07-03 19:43

    智算加速卡是什么東西?它真能在AI戰(zhàn)場(chǎng)上干掉GPU和TPU!

    隨著AI技術(shù)火得一塌糊涂,大家都在談"大模型"、"AI加速"、"智能計(jì)算",可真到了落地環(huán)節(jié),算力才是硬通貨。有沒(méi)有發(fā)現(xiàn),現(xiàn)在越來(lái)越多的AI
    的頭像 發(fā)表于 06-05 13:39 ?1699次閱讀
    智算<b class='flag-5'>加速</b>卡是什么東西?它真能在<b class='flag-5'>AI</b>戰(zhàn)場(chǎng)上干掉<b class='flag-5'>GPU</b>和TPU!

    RK3588核心板在邊緣AI計(jì)算中的顛覆性優(yōu)勢(shì)與場(chǎng)景落地

    推理任務(wù),需額外部署GPU加速卡,導(dǎo)致成本與功耗飆升。 擴(kuò)展性受限:老舊接口(如USB 2.0、百兆網(wǎng)口)無(wú)法支持5G模組、高速存儲(chǔ)等現(xiàn)代外設(shè),升級(jí)困難。 開(kāi)發(fā)周期長(zhǎng):BSP適配不完善,跨平臺(tái)
    發(fā)表于 04-15 10:48

    首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件端側(cè)AI模型接入得心應(yīng)手

    、內(nèi)存帶寬占用量大幅度降低50%,端側(cè)AI推理更聰明、響應(yīng)更迅速。 天璣AI開(kāi)發(fā)套件2.0還首次引入基于NPU的端側(cè)LoRA訓(xùn)練,開(kāi)發(fā)者在天璣NPU上進(jìn)行運(yùn)算訓(xùn)練,相比基于CPU的
    發(fā)表于 04-13 19:52

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型

    Triton 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)軟件,旨在為部署推理 AI 模型的
    的頭像 發(fā)表于 03-20 15:03 ?1289次閱讀

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計(jì)算和推理軟件與 Oracle 的 AI 基礎(chǔ)設(shè)施以及生成式 AI 服務(wù)首次實(shí)現(xiàn)集成,以幫助全球企業(yè)組織
    發(fā)表于 03-19 15:24 ?584次閱讀
    Oracle 與 NVIDIA 合作助力企業(yè)<b class='flag-5'>加速</b>代理式 <b class='flag-5'>AI</b> <b class='flag-5'>推理</b>