91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

第四代英特爾? 至強? 可擴展處理器助東華發(fā)思特“神農(nóng) AI 中臺”推理性能提升4.5倍

英特爾中國 ? 來源:未知 ? 2023-07-28 19:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能 (AI) 技術的深入應用為數(shù)字化轉型注入了充沛的動能,引領著新一輪技術與產(chǎn)業(yè)的創(chuàng)新浪潮。隨著 AI 技術的不斷發(fā)展以及行業(yè)應用的逐步成熟,AI 市場正在出現(xiàn)快速的增長。IDC 預計,中國人工智能市場規(guī)模在 2023 年將超過 147 億美元,到 2026年將超過 264 億美元1。

在端到端的 AI 整體應用流程中,AI 推理是其中的關鍵環(huán)節(jié)。在 AI 推理的算力設備選擇方面,CPU 服務器具備更強的靈活性、敏捷性,能夠支持大數(shù)據(jù)、云計算、虛擬化等多種業(yè)務的彈性擴展,方便部署和管理,滿足企業(yè)不同業(yè)務場景的動態(tài)資源需求。此外,通過面向 AI 工作負載的技術特性升級以及性能優(yōu)化,CPU 已經(jīng)能夠廣泛滿足用戶不同 AI 應用對于算力的要求,在大量場景中的推理性能可比肩GPU,助力客戶節(jié)省成本,同時提升 AI 基礎設施的可靠性與敏捷性。

為了進一步提升旗下產(chǎn)品“神農(nóng) AI 中臺” 的性能,東華軟件股份公司(以下簡稱:東華軟件)和英特爾攜手,由東華軟件旗下的東華發(fā)思特 AI 團隊與英特爾技術團隊就神農(nóng) AI 中臺展開合作,將基于英特爾至強 可擴展處理器的服務器作為推理服務器,并通過OpenVINO 工具套件將神農(nóng) AI 引擎框架訓練的模型進行量化,利用英特爾DL Boost 的矢量神經(jīng)網(wǎng)絡指令 (VNNI) 提高人工智能推理能力。在既有合作成果的基礎上,雙方將推理服務器中的處理器升級為第四代英特爾至強 可擴展處理器,將OpenVINO 工具套件升級為 2023 版,將推理速度提升了數(shù)倍以上。

聯(lián)合創(chuàng)新,神農(nóng)AI中臺在算力、
成本、敏捷性方面實現(xiàn)更好平衡

東華發(fā)思特研發(fā)的神農(nóng) AI 中臺具備人工智能中臺和模型 SaaS 服務能力,其推理引擎提供了豐富的版本,包含 OpenVINO版,為客戶提供豐富、高效的模型推理服務,在智慧城市、數(shù)字鄉(xiāng)村等場景有著廣泛的應用。為了滿足業(yè)務發(fā)展和用戶增加的需要,在算力、成本、敏捷性等方面實現(xiàn)更卓越的平衡,東華發(fā)思特與英特爾進行了聯(lián)合創(chuàng)新。在進行測試之后,東華發(fā)思特發(fā)現(xiàn),將神農(nóng) AI 中臺推理服務器的CPU 從英特爾 至強 黃金 6348 處理器升級為英特爾至強鉑金 8480+ 處理器之后,能夠最大程度上提升性能表現(xiàn),同時保證較高的經(jīng)濟效益。

該方案除了搭載高性能、面向人工智能應用進行優(yōu)化的第四代英特爾至強 可擴展處理器,還通過 OpenVINO 工具套件進行了性能優(yōu)化,并支持技術的持續(xù)創(chuàng)新。第四代英特爾至強 可擴展處理器與 OpenVINO 工具套件的結合可以進一步提升 AI 推理性能。OpenVINO 工具套件支持從邊緣到云的深度學習推理,可在包括英特爾 CPU、iGPU 和FPGA 在內的英特爾硬件平臺(包括加速器)上部署并加速神經(jīng)網(wǎng)絡模型,能夠在保持精度的同時提高推理速度。OpenVINO工具套件支持開發(fā)人員使用行業(yè)標準人工智能框架、標準或自定義層,將深度學習推理輕松集成到應用中。

東華發(fā)思特與英特爾合作,在以下方面進行了重點優(yōu)化:

針對復雜網(wǎng)絡的模型結構壓縮技術:為壓縮網(wǎng)絡結構,節(jié)省數(shù)據(jù)在內存中的讀寫耗時,在讀取訓練模型后,將對其網(wǎng)絡結構進行深度分析,基于預設策略,將一些常見的線性算子進行融合處理。 針對多任務場景的跨平臺異構加速技術:通過異步執(zhí)行策略,將推理任務平均分配到不同的 CPU 內核資源上,減少多線程間的任務同步,提供網(wǎng)絡吞吐能力。同時能夠根據(jù)設備負載情況,自動將推理任務以模型子圖為單位,在 CPU 和 GPU上進行動態(tài)部署,全面激活英特爾 平臺的 iGPU 資源,提升設備使用率,降低項目整體成本。 在圖像識別等場景的深度學習中發(fā)揮優(yōu)勢:基于 MKL/MKLDNN對不同深度學習模型進行特定優(yōu)化,利用英特爾 至強可擴展處理器內置的英特爾 深度學習加速技術對 INT8 提供更優(yōu)的支持。

英特爾 AMX加持
推理性能大幅提升

在本次優(yōu)化中,東華發(fā)思特重點利用了第四代英特爾至強 可擴展處理器內置的英特爾AMX (Advanced Matrix Extensions)高級矩陣擴展加速引擎。英特爾AMX 采用了全新的指令集與電路設計,包含了一系列用于矩陣運算的指令集 TMUL,以及新的矩陣寄存器文件 TILEs。英特爾 AMX 還支持 INT8 和 BF16 數(shù)據(jù)類型。其中,BF16 能夠提供與 FP32 相似的精度,但是在 AI工作負載中的訓練和推理方面能夠帶來大幅的性能提升。

為了驗證新方案對比舊方案的性能提升,東華發(fā)思特進行了一系列測試,其選擇的模型為圖像分類模型 ResNet50_vd,ResNet50_vd是一種深度卷積神經(jīng)網(wǎng)絡模型,它是在 ResNet50 的基礎上進行改進的。ResNet50 是一種非常流行的卷積神經(jīng)網(wǎng)絡模型,它在ImageNet 數(shù)據(jù)集上取得了很好的表現(xiàn),但在訓練過程中容易出現(xiàn)梯度消失或梯度爆炸等問題。ResNet50_vd 通過引入一些改進,使得網(wǎng)絡的訓練更加穩(wěn)定,同時在性能上也有一定提升。


測試的軟硬件配置如表 1 所示,東華發(fā)思特分別測試了在其他配置不變的前提下,處理器升級所帶來的性能提升;以及在同樣硬件配置的前提下,不同模型精度所帶來的性能差異。

表 1. 測試軟硬件配置

原有方案

新方案

處理器

2*英特爾至強金牌6348 處理器@ 2.60GHz

2*英特爾至強鉑金8480+ 處理器@ 2.0GHz

核數(shù)

28 *2

56 *2

內存

24*32 GB DDR4 2933 MHz

16*16 GB DDR5 4800 MHz

操作系統(tǒng)

Ubuntu 20.04.5 LTS

CentOS Linux release 8.5.2111

神農(nóng)AI中臺

ShenNong-AI.2022 (OpenVINO)

ShenNong-AI.2022 (OpenVINO)

ShenNong-AI.2023 (OpenVINO)

在第一輪測試中,東華發(fā)思特對比了神農(nóng)AI 中臺推理引擎(OpenVINO2022 版)分別在第三代/第四代英特爾 至強 可擴展處理器上的運行性能差異。對比第三代英特爾至強 可擴展處理器方案,第四代英特爾 至強 可擴展處理器將推理能力提升了約4.5 倍 (FPS)2,同時保持了推理準確度。

在第二輪測試中,東華發(fā)思特對比了在 INT8 與 BF16 精度下的性能差異。測試數(shù)據(jù)如圖 3 所示,INT8 處理模型在體積減少的同時,在推理性能上實現(xiàn)了 1.5 倍 (FPS) 的性能提升3。

第四代英特爾 至強 可擴展處理器
為客戶提供更低成本高收益的AI解決方案

眾所周知,硬件算力是AI推理引擎運行的關鍵因素之一,因此選擇合適的硬件設備對于推理引擎的性能和效率至關重要。雖然 GPU 服務器在深度學習模型推理方面具有較高的性能和效率,但是仍然存在一些不足之處。

首先,采用 GPU 服務器進行深度學習模型推理,需要專門的 GPU 硬件設備,這將帶來較高的硬件采購和配套設施建設成本。此外,GPU 服務器的應用范圍受限,不夠靈活,難以適應不同場景的需求。 其次,GPU 服務器上進行深度學習模型推理需要復雜的部署和調優(yōu),門檻相對較高,難以滿足新增應用快速上線的需求。相比之下,CPU 服務器具有更強的靈活性、敏捷性和可擴展性,適用于大數(shù)據(jù)、云計算、虛擬化等多種業(yè)務場景,方便部署和管理,能夠滿足企業(yè)不同業(yè)務場景的動態(tài)資源需求。 另外,隨著技術的不斷發(fā)展,CPU 在面向 AI 工作負載的技術特性升級和性能優(yōu)化方面也有了很大的進步。通過使用新的處理器架構、加速器、向量計算單元等技術,CPU 已經(jīng)能夠廣泛滿足客戶不同 AI 應用對于算力的要求。同時,CPU 的高可靠性和穩(wěn)定性也能夠保證算法的運行穩(wěn)定性和數(shù)據(jù)的安全性。

基于第四代英特爾 至強 可擴展處理器以及最新版的 OpenVINO 工具套件,英特爾提供的AI解決方案,使東華發(fā)思特神農(nóng) AI 中臺的 AI 推理性能得到提升的同時,使硬件采購成本以及空間、功耗和軟硬件調優(yōu)等成本則得到降低,為客戶帶來了以下價值:

[ 更好的性能表現(xiàn) ]

推理引擎通過使用最新的技術和硬件平臺,提高了推理性能和效率,從而可以更快地執(zhí)行深度學習模型的推理計算,在部分應用場景中的性能表現(xiàn)比肩 GPU,為深度學習應用提供更高效、更穩(wěn)定的支持。

[ 更低的成本和更高的效益 ]

推理引擎使用高效的 AI 工作負載加速方式,可以在保證性能的同時,降低硬件和軟件的成本,提高推理的效益。對比基于獨立 GPU 的方案,該方案的成本優(yōu)勢更加明顯。

[ 更好的兼容性 ]

推理引擎可以在不同的硬件平臺和操作系統(tǒng)內核上運行,支持多種深度學習框架和模型,具有很好的兼容性和靈活性,可以滿足不同客戶的需求。

東華發(fā)思特與英特爾在現(xiàn)有合作基礎上,繼續(xù)探索第四代英特爾至強可擴展處理器在 AI 領域的推理性能潛力,證明了第四代英特爾至強 可擴展處理器在架構和高級硬件特性方面的提升,有助于加速 AI 負載。切換到基于第四代英特爾 至強 可擴展處理器的基礎設施平臺后,東華發(fā)思特有望提高神農(nóng) AI 中臺的效益和性能,為客戶帶來更高效的 AI 服務。

面向新一輪 AI 領域的大變革,東華發(fā)思特與英特爾未來將深度整合AI 領域的技術合作,包括基礎設施和模型算法的優(yōu)化等,為客戶提供更先進的算法和模型,以及更靈活和更可擴展的計算架構和平臺,助力客戶實現(xiàn)業(yè)務 AI 的升級與轉型。

資料援引:1.https://www.idc.com/getdoc.jsp?containerId=prCHC50539823 ,截至 2023 年 6 月。

2.數(shù)據(jù)援引自東華發(fā)思特與英特爾截止 2023 年 5 月的內部測試結果。測試配置:原有方案 — 雙路英特至強金牌 6348 處理器 @ 2.60GHz,28 核,768 GB 總內存 (24*32 GB DDR4 2933 MHz),Ubuntu 20.04.5 LTS,ShenNong-AI.2022 (OpenVINO);新方案 — 雙路英特爾至強鉑金 8480+ 處理器 @ 2.0GHz,56 核,256 GB 總內存 (16*16 GB DDR5 4800 MHz),CentOS Linux release 8.5.2111,ShenNong-AI.2022 (OpenVINO) 和 ShenNong-AI.2023 (OpenVINO)。英特爾并不控制或審計第三方數(shù)據(jù)。請您審查該內容,咨詢其他來源,并確認提及數(shù)據(jù)是否準確。 3.數(shù)據(jù)援引自東華發(fā)思特與英特爾截止 2023 年 5 月的內部測試結果。測試配置:雙路英特至強鉑金 8480+ 處理器 @ 2.0GHz,56 核,256 GB 總內存 (16*16 GB DDR5 4800 MHz),CentOS Linux release 8.5.2111,ShenNong-AI.2022 (OpenVINO) 和 ShenNong-AI.2023 (OpenVINO)。英特爾并不控制或審計第三方數(shù)據(jù)。請您審查該內容,咨詢其他來源,并確認提及數(shù)據(jù)是否準確。

想看更多“芯”資訊

用你的在看告訴我們~

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10304

    瀏覽量

    180669
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11293

    瀏覽量

    225320

原文標題:第四代英特爾? 至強? 可擴展處理器助東華發(fā)思特“神農(nóng) AI 中臺”推理性能提升4.5倍

文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    小馬智行與三一重卡及東風柳汽聯(lián)合打造第四代自動駕駛卡車

    11月19日,小馬智行宣布與三一重卡、東風柳汽達成合作,將聯(lián)合打造第四代自動駕駛卡車家族。第四代自動駕駛卡車系統(tǒng)采用平臺化設計,具有極強的車型適配能力。
    的頭像 發(fā)表于 11-21 15:51 ?492次閱讀

    Melexis推出第四代汽車LIN電機驅動MLX81350

    Melexis推出第四代汽車LIN電機驅動MLX81350,可為電機提供高達5W(0.5A)的功率。該驅動專為電動汽車(EV)的空調風門與自動通風系統(tǒng)設計,具備高性價比,不僅能實現(xiàn)電機靜音、高效運行,還可簡化系統(tǒng)集成流程,并
    的頭像 發(fā)表于 11-08 17:04 ?2907次閱讀

    從云到端:英特爾展示全棧AI能力,覆蓋云、邊、PC多場景

    2025年9月25日,杭州——今日,在2025云棲大會上,英特爾與阿里云帶來了多項云基礎設施創(chuàng)新成果,包括兼容多代際服務(支持第五英特爾??至強
    的頭像 發(fā)表于 09-26 17:27 ?1582次閱讀
    從云到端:<b class='flag-5'>英特爾</b>展示全棧<b class='flag-5'>AI</b>能力,覆蓋云、邊、PC多場景

    英特爾288核新至強處理器揭秘:Intel 18A制程,3D堆疊與鍵合,EMIB封裝……

    ? 近日,在Hot Chips 2025大會舉行期間,英特爾新一至強處理器?Clearwater Forest首次亮相,這是英特爾基于In
    的頭像 發(fā)表于 08-29 15:59 ?1694次閱讀

    派恩杰第四代碳化硅產(chǎn)品在AI基建的應用

    AI 基建中,碳化硅(SiC)憑借高頻高效、耐高溫、高功率密度等特性,成為解決 “算力飆升與能耗、空間、散熱瓶頸” 矛盾的核心材料。從數(shù)據(jù)中心的電源系統(tǒng)到邊緣 AI 設備的穩(wěn)定運行,派恩杰第四代碳化硅正深度滲透到
    的頭像 發(fā)表于 08-18 15:56 ?1503次閱讀

    Wolfspeed推出第四代性能碳化硅MOSFET

    Wolfspeed 推出第四代 (Gen 4) 1200 V 車規(guī)級碳化硅 (SiC) 裸芯片 MOSFET 系列,專為嚴苛的汽車環(huán)境設計。Wolfspeed 第四代性能碳化硅 MOSFET,可在 185°C 下持續(xù)工作,助力
    的頭像 發(fā)表于 08-11 16:54 ?3093次閱讀

    英特爾至強6助力阿里云第九企業(yè)級ECS實例100天贏得超萬家客戶青睞

    近日,搭載英特爾? 至強? 6性能處理器的阿里云第九企業(yè)級ECS實例g9i正式迎來商業(yè)化100天里程碑,并獲得超過10,000家客戶的信
    的頭像 發(fā)表于 07-29 15:44 ?618次閱讀

    主控CPU全能選手,英特爾至強6助力AI系統(tǒng)高效運轉

    有什么特殊之處呢? AI加速系統(tǒng)為何看重CPU主控能力? 作為造價極高的AI加速系統(tǒng),DGX B300可以不計成本地選任何CPU,只要它能充分的發(fā)揮整套系統(tǒng)的性能。選擇英特爾
    的頭像 發(fā)表于 06-27 11:44 ?922次閱讀
    主控CPU全能選手,<b class='flag-5'>英特爾</b><b class='flag-5'>至強</b>6助力<b class='flag-5'>AI</b>系統(tǒng)高效運轉

    英特爾亮相火山引擎春季原動力大會,共同發(fā)布第四代通用型計算實例家族

    今日,在火山引擎2025春季原動力大會上,英特爾聯(lián)合火山引擎共同發(fā)布搭載英特爾至強6性能處理器第四代
    的頭像 發(fā)表于 06-13 14:55 ?645次閱讀
    <b class='flag-5'>英特爾</b>亮相火山引擎春季原動力大會,共同發(fā)布<b class='flag-5'>第四代</b>通用型計算實例家族

    直擊Computex 2025:英特爾重磅發(fā)布新一GPU,圖形和AI性能躍升3.4

    電子發(fā)燒友原創(chuàng)? 章鷹 5月19日,在Computex 2025上,英特爾發(fā)布了最新全新圖形處理器(GPU)和AI加速產(chǎn)品系列。包括全新英特爾
    的頭像 發(fā)表于 05-21 00:57 ?7541次閱讀
    直擊Computex 2025:<b class='flag-5'>英特爾</b>重磅發(fā)布新一<b class='flag-5'>代</b>GPU,圖形和<b class='flag-5'>AI</b><b class='flag-5'>性能</b>躍升3.4<b class='flag-5'>倍</b>

    直擊Computex2025:英特爾重磅發(fā)布新一GPU,圖形和AI性能躍升3.4

    5月19日,在Computex 2025上,英特爾發(fā)布了最新全新圖形處理器(GPU)和AI加速產(chǎn)品系列。包括全新英特爾銳炫? Pro B系
    的頭像 發(fā)表于 05-20 12:27 ?5485次閱讀
    直擊Computex2025:<b class='flag-5'>英特爾</b>重磅發(fā)布新一<b class='flag-5'>代</b>GPU,圖形和<b class='flag-5'>AI</b><b class='flag-5'>性能</b>躍升3.4<b class='flag-5'>倍</b>

    高通推出第四代驍龍7移動平臺

    高通技術公司今日推出最新驍龍7系產(chǎn)品——第四代驍龍7移動平臺。這一全新平臺旨在增強用戶喜愛的多媒體體驗并提供全面的穩(wěn)健性能。無論是利用先進圖像處理功能拍攝珍貴瞬間,還是借助精選的Snapdragon
    的頭像 發(fā)表于 05-19 15:02 ?2423次閱讀

    ADSP-21467/ADSP-21469第四代性能DSP技術手冊

    包括ADSP-21469在內的第四代SHARC?處理器可提供改進的性能、基于硬件的濾波加速、面向音頻與應用的外設,以及能夠支持最新環(huán)繞聲
    的頭像 發(fā)表于 05-12 15:49 ?1131次閱讀
    ADSP-21467/ADSP-21469<b class='flag-5'>第四代</b>高<b class='flag-5'>性能</b>DSP技術手冊

    1.9性能提升英特爾至強6在MLPerf基準測試中表現(xiàn)卓越

    關鍵項目中,性能表現(xiàn)卓越。測試結果顯示,相較于上一產(chǎn)品,該處理器AI性能實現(xiàn)了高達1.9
    的頭像 發(fā)表于 04-07 10:58 ?712次閱讀

    英特爾酷睿Ultra AI PC上部署多種圖像生成模型

    全新英特爾酷睿Ultra 200V系列處理器對比上代Meteor Lake,升級了模塊化結構、封裝工藝,采用全新性能核與能效核、英特爾硬件線程調度
    的頭像 發(fā)表于 04-02 15:47 ?1546次閱讀
    在<b class='flag-5'>英特爾</b>酷睿Ultra <b class='flag-5'>AI</b> PC上部署多種圖像生成模型