91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

面向未來的AI加速, ACAP可編程器件具有突破性意義

454398 ? 來源:Xilinx賽靈思官微 ? 作者:Mike Thompson ? 2020-09-28 14:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Mike Thompson,賽靈思 Virtex UltraScale+ FPGA 與 Versal Premium ACAP 高級產(chǎn)品線經(jīng)理

AI 無處不在、隨時在線和以數(shù)據(jù)為中心的時代,正催升對更高帶寬的需求,而這已經(jīng)超出了當(dāng)今技術(shù)和產(chǎn)品尺寸的能力范疇,世界需要一種當(dāng)前 CPUGPU 技術(shù)所無法企及的更高效、更普及、普適的計算,自適應(yīng)計算應(yīng)運而生。

AI無處不在,隨時在線和以數(shù)據(jù)為中心

金錢算什么,數(shù)據(jù)才是推動當(dāng)今世界的運轉(zhuǎn)的王者。從遠程物聯(lián)網(wǎng)終端為城市規(guī)劃、健康跟蹤、環(huán)境保護、業(yè)務(wù)改進等多樣化用途采集數(shù)據(jù),到我們熱衷的視頻流內(nèi)容和在線分享生活,數(shù)據(jù)的遷移、管理和分析,正處于所有功能的核心,也促使消費者更廣泛地使用隨時在線的個人物聯(lián)網(wǎng)設(shè)備,并讓企業(yè)和科研越來越依賴以 AI 為中心的應(yīng)用。

數(shù)字化的生活方式和新興的物聯(lián)網(wǎng)與云端計算及數(shù)據(jù)服務(wù)的快速增長密不可分。云是全新的生活與工作方式的中心。它存儲著海量的個人內(nèi)容,供人們隨時隨地進行訪問;它托管點播音樂和視頻流服務(wù);它采集和分析工業(yè)數(shù)據(jù)或企業(yè)數(shù)據(jù);它將功能強大的軟件應(yīng)用以按次計費的方式低成本地提供給金融分析、數(shù)據(jù)庫搜索或基因組測序等工作使用。

此外,5G New Radio( NR )引入了對海量機器通信( MMTC )和超低時延通信( ULLC )的支持,能實現(xiàn)全新的實時蜂窩通信服務(wù)。而這將給回傳網(wǎng)、城域網(wǎng)以及核心網(wǎng)的容量和性能帶來巨大壓力。

核心基礎(chǔ)設(shè)施面臨越來越大的壓力

如今,提高數(shù)據(jù)帶寬和計算吞吐量是所有的云數(shù)據(jù)中心、電信網(wǎng)絡(luò)和蜂窩通信回程網(wǎng)共同面臨的強勁需求。涉及的主要基礎(chǔ)設(shè)施組成部分包括進出數(shù)據(jù)中心的鏈路、連接地域分散型數(shù)據(jù)中心站點的數(shù)據(jù)中心互聯(lián)( DCI )、基礎(chǔ)設(shè)施接口卡和加速器卡。事實上,核心基礎(chǔ)設(shè)施對數(shù)據(jù)帶寬的需求名義上是以 51% 的年均復(fù)合增長率( GAGR )增長,然而,單是 5G 的推出便可推動區(qū)域流量容量需求增長 100 倍。

利用協(xié)議處理芯片和接口芯片等分立組件打造新的、更高性能的設(shè)備來滿足這些需求,不僅復(fù)雜費時,而且越來越難以按照性能需求進行擴展。此外,采用這種方式設(shè)計出的系統(tǒng)體積龐大、功耗驚人,無法滿足數(shù)據(jù)中心和基礎(chǔ)設(shè)施設(shè)備對空間占用、功耗和熱管理的限制性要求。新一代設(shè)備必須在現(xiàn)有的物理、電氣和熱約束條件范圍內(nèi)大幅提升性能。

除此之外,設(shè)計工作需要在最終規(guī)格商定之前采用最先進的協(xié)議和標(biāo)準(zhǔn),才能率先投放市場,盡早抓住機遇。對于想要率先將產(chǎn)品投放市場的設(shè)備提供商而言,等待標(biāo)準(zhǔn)成熟之后再部署肯定是無法實現(xiàn)領(lǐng)先的預(yù)期, 只有擁有能夠隨著項目的進展在硬件層面靈活地適應(yīng)變化的能力,才能與時俱進領(lǐng)先同行。

具有突破性意義的可編程加速器

對于一些使用傳統(tǒng) CPU 或 GPU 架構(gòu)無法快速執(zhí)行或功耗約束得不到滿足的工作負載,高密度 FPGA 和異構(gòu)的可編程片上系統(tǒng) IC( MPSoC )等可編程邏輯器件已成為理所當(dāng)然的加速器選擇。這些器件不僅可以通過高度并行的處理模式以極為高效的方式解決特定計算難題(例如信號處理和近期的神經(jīng)網(wǎng)絡(luò)),而且還提供了可編程器件固有的靈活應(yīng)變能力。

現(xiàn)在,為了滿足近來日益嚴(yán)苛的性能、帶寬、功耗和集成目標(biāo),被稱為自適應(yīng)計算加速平臺 ( ACAP )的新型可編程器件已經(jīng)問世。賽靈思 Versal? ACAP 內(nèi)置一系列智能 AI 和 DSP 計算引擎、等效于 FPGA 邏輯架構(gòu)的自適應(yīng)引擎,以及應(yīng)用處理和實時標(biāo)量引擎,并通過片上可編程網(wǎng)絡(luò)( NoC )互聯(lián)緊密耦合。它還集成了軟件控制平臺管理功能和眾多先進的接口,包括 DDR4、100G 以太網(wǎng)、PCIe? Gen 5 和數(shù)千兆位光通信接口。

Versal DSP 引擎采用經(jīng)過改進的 DSP 塊,為 INT8、32 位浮點等操作數(shù)提供本機支持,從而提升了多種應(yīng)用的速度和效率,不僅包括數(shù)字信號處理,而且也包括寬動態(tài)總線移位器、存儲器地址生成器、寬總線多路復(fù)用器以及存儲器映射 I/O 寄存器。標(biāo)量引擎由一個雙核 Arm? Cortex?-A72 應(yīng)用處理器和一個雙核 Arm? Cortex?-R5F 實時處理單元構(gòu)成。ACAP 的異構(gòu)引擎能夠?qū)崿F(xiàn)重新編程,以適應(yīng)隨時間推移而變化的工作負載,或是隨著算法實現(xiàn)或神經(jīng)網(wǎng)絡(luò)模型演進而變化的工作負載。

優(yōu)化 ACAP 連接性

依托于這種新型可編程器件助力實現(xiàn)的創(chuàng)新,Versal Premium 系列現(xiàn)已能夠應(yīng)對當(dāng)今核心基礎(chǔ)設(shè)施面臨的壓力。這些高帶寬器件將高計算密度與附加的專用高速加密( HSC )引擎以及先進的網(wǎng)絡(luò)接口融為一體。

高密度網(wǎng)絡(luò)連接功能包括:提供總雙向帶寬高達 9Tb/s 的可擴展光纖收發(fā)器(支持最新的以太網(wǎng)和 Interlaken 速率與協(xié)議)、112Gb/s PAM4 收發(fā)器、加密處理能力高達 400Gb/s 的高速加密引擎,以及靈活應(yīng)變的硬件(圖 1)。

圖 1:配備有 112Gb/s PAM4、600G 以太網(wǎng)、600G Interlaken 和 400G HSC 的 Versal Premium ACAP

與現(xiàn)有的 58Gb/s PAM4 技術(shù)相比,在核心網(wǎng)、城域網(wǎng)和 DCI 基礎(chǔ)設(shè)施中采用 112G PAM4 收發(fā)器能夠使每端口帶寬密度翻倍,從而緩解前面板機柜空間的壓力,并為電信和數(shù)據(jù)中心應(yīng)用加倍提供單位體積帶寬。與此同時,給定的數(shù)據(jù)有效載荷的傳輸時延降低 50%,提高了應(yīng)用的響應(yīng)能力,有助于降低時延對地域分散型數(shù)據(jù)中心互聯(lián)的影響。

較之賽靈思 16nm Virtex? UltraScale+? FPGA ,片上集成資源提供了高達三倍的帶寬和兩倍的計算密度。另一方面,與專用的特定應(yīng)用光傳輸網(wǎng)絡(luò)( OTN )處理器相比,應(yīng)用吞吐量提高了三到五倍。

提升計算密度

為了滿足超大規(guī)模云服務(wù)提供商的當(dāng)前及未來需求,Versal ACAP 架構(gòu)將極高的片上存儲器帶寬與高性能異構(gòu)計算引擎緊密耦合,并通過動態(tài)功能交換( DFX )實現(xiàn)靈活的工作負載配置。與之前的 16nm FPGA 相比,DFX 交換內(nèi)核的速度加快了八倍,支持加速器的動態(tài)配置,從而最高效地將器件資源用于隨時間推移而變化的計算工作負載,如數(shù)據(jù)分析、機器學(xué)習(xí)視覺處理、基因組學(xué)、視頻轉(zhuǎn)碼、加密處理等。

憑借多種類型的分布式片上 RAM,高達 1Gb 的緊密耦合存儲器可供使用,進而提供了最高 123TByte/s 的等效片上存儲器帶寬。該帶寬能實現(xiàn)各種處理引擎與存儲器之間的高速交互,其速度比如今最優(yōu)秀的 GPU 快九倍。此外,可編程 NoC 互聯(lián)支持與片外 DDR4 存儲器進行高速交互。

Versal Premium ACAP 能夠滿足 DCI 設(shè)備的需求,兼容服務(wù)器側(cè)和傳輸側(cè)的多種光通信接口與協(xié)議,同時以安全、低成本的平臺靈活適應(yīng)新興的且不斷演進的標(biāo)準(zhǔn)。1RU 系統(tǒng)或單卡就能提供 3.2Tb/s 的容量,支持多種多樣的標(biāo)準(zhǔn)化和新興協(xié)議以及光通信接口(圖 2)。憑借其先進的連接和加密核心,單個 Versal Premium ACAP 器件就能為服務(wù)器側(cè)的光通信接口提供 4x25G NRZ 連接的多條 100G FlexE 以太網(wǎng)通道、為線路側(cè)提供 4x112G PAM4 連接的 400G 以太網(wǎng)通道、線路速率為 1.6Tb/s 的 AES256 加密、控制和端口管理功能。

圖 2:采用 Versal Premium ACAP 的 3.2Tb/s DCI

這些器件也非常適合用于高速客戶端接口卡(圖 3),具體方式是利用 Versal Premium ACAP 將數(shù)據(jù)流量與服務(wù)橋接并封裝到行業(yè)標(biāo)準(zhǔn)的 OTN 封裝程序中。Versal Premium ACAP 內(nèi)部集成通道化以太網(wǎng)、Interlaken、112G 和 58G PAM4 GTM 收發(fā)器與 32.75G GTYP 收發(fā)器,提供每秒多太位容量。這些資源以專用硬 IP 的形式集成,既能獲得 ASIC 級的功率效率,又能釋放 ACAP 邏輯架構(gòu)用于映射、開銷和 SAR 功能。

圖 3:2.4Tb/s 客戶端接口卡

面向未來的 AI 加速

通過將異構(gòu)計算引擎與高存儲器帶寬相結(jié)合,Versal Premium ACAP 在處理高難度工作負載(如使用神經(jīng)網(wǎng)絡(luò)開展圖像分類或?qū)ο髾z測)時,性能顯著優(yōu)于 GPU。圖 4 對比了Versal Premium 與領(lǐng)先 GPU 的性能,可以看到運行在 680x680 YOLOv2 模型上的對象檢測速度在 ACAP Premium 器件上能提速高達 7.7 倍。

圖 4:與 GPU 進行對比的對象檢測性能

與 FPGA 和 MPSoC 架構(gòu)相比,ACAP 另一個有助于簡化加速器開發(fā)的引人矚目的特性是預(yù)先構(gòu)建的外殼程序,通過它能硬連接到片外接口,如以太網(wǎng)、PCIe Gen 5、DDR4 和光通信接口(圖 5)。這種高效的云連接基礎(chǔ)設(shè)施提供了多重優(yōu)勢,包括允許在設(shè)備啟動時進行 CPU 主機和系統(tǒng)存儲器通信、簡化內(nèi)核布局與時序收斂、簡化加速器虛擬化。外殼程序便于設(shè)計人員將器件的內(nèi)部邏輯架構(gòu)更多地用于定制功能,否則就需要實現(xiàn)必要的基礎(chǔ)設(shè)施,如存儲器和 DMA 控制器。

圖 5:預(yù)先構(gòu)建的外殼程序基礎(chǔ)設(shè)施簡化了云連接,同時實現(xiàn)了速度與效率的雙重提升

外殼程序和角色架構(gòu)可以幫助設(shè)計人員快速高效地在 Versal Premium ACAP 中實現(xiàn)先進的智能零售技術(shù)。ACAP 器件支持?jǐn)?shù)據(jù)驅(qū)動的視頻內(nèi)容分析,有助于降低損失以及提供自動、實時、可執(zhí)行的庫存洞察,并提供可促進銷售最大化的客戶體驗定制能力。借助 Versal Premium ACAP 能夠在單個平臺上托管視頻分析解決方案,用于視頻元數(shù)據(jù)的識別、提取和分類(圖 6)。

圖 6:智能零售視頻分析加速器

外殼程序提供了現(xiàn)成的連接與加密功能,而器件的 DSP 引擎和軟件可編程計算內(nèi)核則可處理對象檢測、圖像分類以及視頻編碼、解碼和縮放。而且能夠在緊鄰計算內(nèi)核的地方提供最大 1Gb 的片上 SRAM,面向 AI 加速提供高達 123TB/s 的存儲器帶寬。通過消除 GPU 架構(gòu)和基于 GPU 的架構(gòu)所特有的存儲器瓶頸與批次大小限制,分析加速器能夠為 Resnet50 提供高達每秒 13,000 幅圖像/秒的處理速度。

結(jié)論

盡管消費者和企業(yè)界越來越重視數(shù)據(jù)的價值,客戶也越來越依賴于即時服務(wù)交付,但復(fù)雜性、計算強度和帶寬耗用正成為瓶頸。ACAP 將高效的分布式異構(gòu)計算引擎與高速互聯(lián)融為一體,以滿足飛速增長的性能需求。通過綜合運用硬 IP、預(yù)先構(gòu)建的創(chuàng)新型連接外殼程序、可編程邏輯架構(gòu)和軟件可配置資源,ACAP 器件不僅能夠助力提升性能,還能簡化設(shè)計,同時提供面向未來的靈活性。
編輯:hfy

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1660

    文章

    22424

    瀏覽量

    636703
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107875
  • 賽靈思
    +關(guān)注

    關(guān)注

    33

    文章

    1798

    瀏覽量

    133457
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5199

    瀏覽量

    135534
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39930

    瀏覽量

    301565
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Zynq全可編程片上系統(tǒng)詳解

    Zynq 是由賽靈思(Xilinx,現(xiàn)為 AMD 的一部分)推出的一系列全可編程片上系統(tǒng)。它的革命創(chuàng)新在于,它不是傳統(tǒng)的 FPGA,也不是傳統(tǒng)的處理器,而是將高性能的 ARM Cortex-A 系列處理器與傳統(tǒng)的 FPGA 可編程
    的頭像 發(fā)表于 01-13 11:41 ?1909次閱讀
    Zynq全<b class='flag-5'>可編程</b>片上系統(tǒng)詳解

    NVIDIA Jetson系列開發(fā)者套件助力打造面向未來的智能機器人

    NVIDIA Jetson AGX Thor、AGX Orin 以及 Jetson Orin Nano Super 開發(fā)者套件,助力打造面向未來的智能機器人。
    的頭像 發(fā)表于 12-13 10:20 ?3090次閱讀

    思爾芯邀您共聚 FPT 2025,賦能可編程技術(shù)新未來

    可編程技術(shù)盛會,聚焦可重構(gòu)計算設(shè)備與系統(tǒng)、現(xiàn)場可編程器件等關(guān)鍵領(lǐng)域。FPT不僅是技術(shù)交流的平臺,更是推動產(chǎn)學(xué)研深度融合、激發(fā)創(chuàng)新靈感的重要契機。思爾芯作為國內(nèi)首家數(shù)
    的頭像 發(fā)表于 11-25 09:57 ?682次閱讀
    思爾芯邀您共聚 FPT 2025,賦能<b class='flag-5'>可編程</b>技術(shù)新<b class='flag-5'>未來</b>

    ?TPLD801 可編程邏輯器件技術(shù)文檔摘要

    該TPLD801是 TI 可編程邏輯器件 (TPLD) 系列器件的一部分,該器件具有具有組合邏輯、順序邏輯和模擬模塊的多功能
    的頭像 發(fā)表于 09-28 14:36 ?1195次閱讀
    ?TPLD801 <b class='flag-5'>可編程邏輯器件</b>技術(shù)文檔摘要

    ?TPLD2001-Q1 汽車級可編程邏輯器件技術(shù)文檔摘要

    TPLD2001-Q1 是 TI 可編程邏輯器件 (TPLD) 系列器件的一部分,該器件具有具有組合邏輯、順序邏輯和模擬模塊的多功能
    的頭像 發(fā)表于 09-28 10:42 ?844次閱讀
    ?TPLD2001-Q1 汽車級<b class='flag-5'>可編程邏輯器件</b>技術(shù)文檔摘要

    ?TPLD2001可編程邏輯器件技術(shù)文檔摘要

    該TPLD2001是 TI 可編程邏輯器件 (TPLD) 系列器件的一部分,該器件具有具有組合邏輯、順序邏輯和模擬模塊的多功能
    的頭像 發(fā)表于 09-28 10:36 ?820次閱讀
    ?TPLD2001<b class='flag-5'>可編程邏輯器件</b>技術(shù)文檔摘要

    ?TPLD1201-Q1 可編程邏輯器件技術(shù)文檔摘要

    TPLD1201-Q1 是 TI 可編程邏輯器件 (TPLD) 系列器件的一部分,該器件具有具有組合邏輯、順序邏輯和模擬模塊的多功能
    的頭像 發(fā)表于 09-28 10:06 ?728次閱讀
    ?TPLD1201-Q1 <b class='flag-5'>可編程邏輯器件</b>技術(shù)文檔摘要

    ?TPLD801-Q1 可編程邏輯器件技術(shù)文檔總結(jié)

    TPLD801-Q1 是 TI 可編程邏輯器件 (TPLD) 系列器件的一部分,該器件具有具有組合邏輯、順序邏輯和模擬模塊的多功能
    的頭像 發(fā)表于 09-28 10:03 ?687次閱讀
    ?TPLD801-Q1 <b class='flag-5'>可編程邏輯器件</b>技術(shù)文檔總結(jié)

    MT6501在線可編程角度編碼器:以獨特可編程特性提升汽車控制精度與可靠

    在汽車工業(yè)蓬勃發(fā)展的今天,汽車的智能化、自動化程度越來越高,對汽車控制精度與可靠的要求也日益嚴(yán)苛。MT6501 在線可編程角度編碼器憑借其獨特的可編程特性,在提升汽車控制精度與可靠
    的頭像 發(fā)表于 08-04 18:01 ?834次閱讀

    Analog Devices Inc. LT8740可編程器件電源(DPS)數(shù)據(jù)手冊

    Analog Devices LT8740可編程器件電源(DPS)具有高效率、高集成度和高性能。該DPS包含兩個開關(guān)電源,在輸出電壓范圍為30V時,每個可提供高達 ±2A的電流。該器件集成了電流檢測
    的頭像 發(fā)表于 05-26 14:23 ?1504次閱讀
    Analog Devices Inc. LT8740<b class='flag-5'>可編程器件</b>電源(DPS)數(shù)據(jù)手冊

    LMH6882 具有增益控制的、2.4 GHz、雙路可編程差動放大器技術(shù)手冊

    LMH6882 是一款高速、高性能、可編程的差分放大器。 該器件具有 2.4GHz 的帶寬和 42dBm OIP3 的高線性度,適合各類信號調(diào)節(jié)應(yīng)用。
    的頭像 發(fā)表于 05-06 13:40 ?934次閱讀
    LMH6882 <b class='flag-5'>具有</b>增益控制的、2.4 GHz、雙路<b class='flag-5'>可編程</b>差動放大器技術(shù)手冊

    LMH6881 具有增益控制的、2.4GHz、可編程差動放大器技術(shù)手冊

    LMH6881 是一款高速、高性能、可編程的差分放大器。 該器件具有 2.4GHz 的帶寬和 44dBm OIP3 的高線性度,適合各類信號調(diào)節(jié)應(yīng)用。
    的頭像 發(fā)表于 05-06 11:44 ?947次閱讀
    LMH6881 <b class='flag-5'>具有</b>增益控制的、2.4GHz、<b class='flag-5'>可編程</b>差動放大器技術(shù)手冊

    吉事勵可編程變頻電源的特性與應(yīng)用

    在當(dāng)今科學(xué)技術(shù)飛速發(fā)展的時代,可編程交流電源作為一種關(guān)鍵的電力設(shè)備,在工業(yè)生產(chǎn)、科研實驗等諸多領(lǐng)域得到了廣泛的應(yīng)用,為各行業(yè)的發(fā)展提供了強有力的動力支持。 可編程交流電源具有許多顯著的特點。 首先
    的頭像 發(fā)表于 04-21 17:18 ?599次閱讀
    吉事勵<b class='flag-5'>可編程</b>變頻電源的特性與應(yīng)用

    NVIDIA實現(xiàn)神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強功能

    近日,NVIDIA 宣布了 NVIDIA RTX 神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強功能。NVIDIA 與微軟合作,將在 4 月的 Microsoft DirectX 預(yù)覽版中增加神經(jīng)網(wǎng)絡(luò)著色技術(shù),讓開
    的頭像 發(fā)表于 04-07 11:33 ?1207次閱讀

    可編程電子負載的原理及主要應(yīng)用

    可編程電子負載是電源測試領(lǐng)域的關(guān)鍵設(shè)備,能夠模擬真實負載條件并動態(tài)調(diào)整參數(shù),為電源、電池、新能源設(shè)備等提供性能驗證。源儀電子基于20年行業(yè)經(jīng)驗,開發(fā)了可編程直流電子負載系列,涵蓋高精度測試、動態(tài)響應(yīng)及多通道控制功能,滿足從研發(fā)到量產(chǎn)的全流程測試需求。
    的頭像 發(fā)表于 03-15 10:38 ?1917次閱讀
    <b class='flag-5'>可編程</b>電子負載的原理及主要應(yīng)用