賽靈思的研究結果表明,K26 SOM 提供了比英偉達 Jetson Nano 高出大約 3 倍的性能。此外,它的單位功耗性能較之英偉達 Jetson TX2 提升了 2 倍。對于 SSD MobileNet-v1 這樣的網絡,K26 SOM 的低時延、高性能深度學習處理單元 (DPU)提供了比 Nano 高出 4 倍甚至更高的性能。
01
與未來兼容的 Kria K26 SOM
智能應用除了要求亞微秒級的時延,還需要具備私密性、低功耗、安全性和低成本。以 Zynq MPSoC 架構為基礎,Kria K26 SOM 提供了業(yè)界一流的單位功耗性能和更低的總體擁有成本,使之成為邊緣設備的理想選擇。
原始計算能力
就在邊緣設備上部署解決方案而言,硬件必須擁有充足的算力,才能處理先進 ML 算法工作負載。我們可以使用各種深度學習處理單元 (DPU) 配置對 Kria K26 SOM 進行配置,還能根據性能要求,將最適用的配置集成到設計內。
支持更低精度的數(shù)據類型
深度學習算法正在以極快的速度演進發(fā)展,各種更低精度的數(shù)據類型和定制數(shù)據正在進入使用。傳統(tǒng)的 GPU 廠商已無法滿足當前的市場需求,而 Kria K26 SOM 能夠支持全系列數(shù)據類型精度,如 PF32、INT8、二進制和其他定制數(shù)據類型。

運算的能耗成本
低時延與低功耗
為了改善軟件可編程能力,GPU 架構需要頻繁訪問外部 DDR。這種做法非常低效,有時候會對高帶寬設計要求構成瓶頸。相反,Zynq MPSoC 架構具有高能效,它的可重配置能
力便于開發(fā)者設計的應用減少或不必訪問外部存儲器。這不僅有助于減少應用的總功耗,也通過降低端到端時延改善了響應能力。

典型 GPU 與 Zynq MPSoC 架構
靈活性
與數(shù)據流固定的 GPU 不同,賽靈思硬件提供了靈活性用來專門地重新配置數(shù)據路徑,從而實現(xiàn)最大吞吐量并降低時延。此外,可編程的數(shù)據路徑也降低了對批處理的需求,而批處理是 GPU 的一個重大不足,需要在降低時延或提高吞吐量之間做出權衡取舍。Kria SOM 靈活的架構已在稀疏網絡中展示出巨大潛力。
02
與英偉達 Jetson 性能比較
深度學習模型性能比較
根據測試數(shù)據,所有模型在 K26 SOM 上的性能數(shù)值均優(yōu)于英偉達 Jetson Nano。而且對于 SSD Mobilenet-V1 等部分模型,吞吐量則為 Jetson Nano 的四倍以上,為 Jetson Tx2 的兩倍左右,從下表可以很容易地看到顯著的吞吐量提升。

FPS(時延優(yōu)化)
功耗測量
邊緣設備提供最佳性能這點非常重要,但同時必須降低能耗。賽靈思測量了英偉達和賽靈思 SOM 模塊在執(zhí)行具體模型時發(fā)生的峰值功率,結果很明顯,K26 SOM 優(yōu)于 Jetson Nano
3.5 倍,優(yōu)于 Jetson TX2 2.4 倍。

FPS/瓦
實際應用性能比較
為了分析實際用例,我們選擇了一種準確檢測和識別車輛牌照的基于機器學習的應用。將 Uncanny Vision 行業(yè)領先的 ANPR 算法部署在 Kria SOM 上后,與英偉達用 Deepstream-SDK 完成的“車牌識別”的公開數(shù)據進行比較,結果說明,Uncanny Vision 的 ANPR 流水線在針對 KV260 入門套件進行優(yōu)化后,實現(xiàn)了超過 33fps 的吞吐量,顯著優(yōu)于英偉達基準測試中 Jetson Nano 的 8pfs 和 Jetson Tx2 的 23fps。這種前所未有的性能水平為 ANPR 集成商和 OEM 廠商提供了優(yōu)于競爭對手的開發(fā)靈活性。
實際應用測試顯示,K26 SOM 不僅在標準性能比較中表現(xiàn)極其優(yōu)異,并且在為開發(fā)者提供加速整體 AI 和視覺流水線所需的原始性能時,效率也更高。通過對比,在標準的基準測試領域之外,競爭解決方案傾向于提供較低效率水平,而且功耗較高。
文章出處:【微信公眾號:FPGA開發(fā)圈】
責任編輯:gt
-
賽靈思
+關注
關注
33文章
1798瀏覽量
133456 -
gpu
+關注
關注
28文章
5196瀏覽量
135515 -
英偉達
+關注
關注
23文章
4090瀏覽量
99234
原文標題:白皮書 | Kria K26:邊緣端視覺 AI 理想平臺
文章出處:【微信號:FPGA-EETrend,微信公眾號:FPGA開發(fā)圈】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
探索VIPer26K:高性能高壓轉換器的卓越之選
探索LNBH26:衛(wèi)星接收的理想解決方案
探索Xilinx Kria KR260機器人入門套件:開啟機器人應用開發(fā)新旅程
探索 AMD Kria KD240 驅動入門套件:開啟電機控制與電源轉換新征程
探索AMD Kria K24 SOM:高性能嵌入式平臺的卓越之選
傳統(tǒng)普通掃碼槍與RFID掃描槍對比分析
AMD Kria KV260視覺AI入門套件更新升級
TaskPool和Worker的對比分析
國內外電機結構 工藝對比分析
主流汽車電子SoC芯片對比分析
Made with KiCad(126):Antmicro OV5640 雙攝像頭子板
Variscite提供ISO 13485認證SoM解決方案
浮思特 | 新興傳感器技術:TMR與分流解決方案的對比分析
Kria K26 SOM性能解決方案的對比分析
評論