? ? 在2023 人工智能大會上,據(jù)統(tǒng)計,有 24 款大模型新品在大會上發(fā)布或升級,發(fā)布主體不僅包括互聯(lián)網(wǎng)龍頭企業(yè),也包括移動聯(lián)通等運營商、創(chuàng)業(yè)公司及各大高校。 與國內(nèi)大模型產(chǎn)品相比,chatGPT 效果依然最優(yōu)。根據(jù) InfoQ 數(shù)據(jù)顯示,chatGPT 在大模型產(chǎn)品測評中分?jǐn)?shù)最高,綜合得分率為 77.13%,國內(nèi)大模型產(chǎn)品文心一言正迅速追趕,在國內(nèi)大語言模型中位列第一。

介紹GPT-4 詳細參數(shù)及英特爾發(fā)布 Gaudi2 加速器相關(guān)內(nèi)容,對大模型及 GPU 生態(tài)進行探討和展望。英特爾發(fā)布高性價比Gaudi2加速卡GPT4詳細參數(shù)分析。 與國內(nèi)大模型產(chǎn)品相比,chatGPT 效果依然最優(yōu)。根據(jù) InfoQ 數(shù)據(jù)顯示,chatGPT 在大模型產(chǎn)品測評中分?jǐn)?shù)最高,綜合得分率為 77.13%,國內(nèi)大模型產(chǎn)品文心一言正迅速追趕,在國內(nèi)大語言模型中位列第一。
在這一背景下,市場普遍認為 GPT-4 的模型架構(gòu)、基礎(chǔ)設(shè)施、參數(shù)設(shè)計等具有一定程度的領(lǐng)先。由于官方并未公布 GPT-4 的詳細參數(shù),業(yè)內(nèi)人士對 GPT-4 的詳細參數(shù)進行了推斷. 參數(shù)量:GPT-4 的大小是 GPT-3 的 10 倍以上,包含 1.8 萬億個參數(shù); 混合專家模型:OpenAI 使用混合專家(MoE)模型,依此保持相應(yīng)的成本。混合專家模型使用了 16 個專家模型,每個模型大約有 111B 個參數(shù),每次計算將其中兩個專家模型通過前向傳遞的方式將結(jié)果進行反饋; 數(shù)據(jù)集:GPT-4 的訓(xùn)練數(shù)據(jù)集將多個 epoch 中的 token 計算在內(nèi)包含約 13萬億個 token; 推理:相較于純密集模型每次前向傳遞需要大約 1.8 萬億個參數(shù)和約 3700TFLOP 的計算量,GPT-4 每次前向傳遞(生成 1 個 token)僅利用約 2800 億個參數(shù)和約 560 TFLOP 的計算量; 并行策略:為了在所有 A100 GPU 上進行并行計算,GPT-4 采用了 8 路張量并行,因為這是 NVLink 的極限。
除此之外,GPT-4 采用了 15 路流水線并行; 訓(xùn)練成本:OpenAI 在 GPT-4 的訓(xùn)練中使用了大約 2.15e25 的 FLOPS,使用了約 25,000 個 A100 GPU,訓(xùn)練了 90 到 100 天,利用率(MFU)約為32% 至 36%。假定云端的每個 A100 GPU 的成本大約為每小時 1 美元,那么單次訓(xùn)練的成本將達到約 6300 萬美元,如果使用約 8192 個 H100 GPU進行預(yù)訓(xùn)練,用時約為 55 天左右,成本為 2150 萬美元,每個 H100 GPU的計費標(biāo)準(zhǔn)為每小時 2 美元;
推理成本:GPT-4 的推理成本是 1750 億參數(shù)模型的 3 倍,這主要是因為GPT-4 的集群規(guī)模更大,并且利用率很低。根據(jù)測算,在用 128 個 A100GPU 進行推理的情況下,8k 版本 GPT-4 推理的成本為每 1,000 個 token0.0049 美分。如果使用 128 個 H100 GPU 進行推理,同樣的 8k 版本 GPT-4推理成本為每 1,000 個 token 0.0021 美分; 推理架構(gòu):推理運行在由 128 個 GPU 組成的集群上。在不同地點的多個數(shù)據(jù)中心存在多個這樣的集群。
推理過程采用 8 路張量并行(tensor parallelism)和16 路流水線并行(pipeline parallelism)。 視覺多模態(tài):獨立于文本編碼器的視覺編碼器,二者之間存在交叉注意力。該架構(gòu)類似于 Flamingo。這在 GPT-4 的 1.8 萬億個參數(shù)之上增加了更多參數(shù),經(jīng)過了純文本的預(yù)訓(xùn)練之后,又新增了約 2 萬億個 token 的微調(diào)。 由于大模型訓(xùn)練成本較高,性價比問題凸顯。7 月 11 日,Intel 面向國內(nèi)提出了新的解決方案,推出了第二代 Gaudi 深度學(xué)習(xí)加速器 Habana Gaudi2。Gaudi2深度學(xué)習(xí)以第一代 Gaudi 高性能架構(gòu)為基礎(chǔ),多方位性能與能效比提升,加速高性能大語言模型運行。該加速器具備以下性能:
?21 個 100Gbps(RoCEv2)以太網(wǎng)接口;
?96GB HBM2E 內(nèi)存容量;
?2.4TB/秒的總內(nèi)存帶寬;
?48MB 片上 SRAM;
?集成多媒體處理引擎。
Habana Gaudi2 深度學(xué)習(xí)加速器和第四代英特爾至強可擴展處理器在 MLPerfTraining 3.0 基準(zhǔn)測試上表現(xiàn)優(yōu)異。
在大語言模型 GPT-3 的評測上,Gaudi2 也展示了其較優(yōu)的性能。它是僅有的兩個提交了 GPT-3 LLM 訓(xùn)練性能結(jié)果的解決方案之一(另一個是英偉達H100)。在 GPT-3 的訓(xùn)練上,英特爾使用 384 塊 Gaudi 2 加速器使用 311 分鐘訓(xùn)練完成,在 GPT-3 模型上從 256 個加速器到 384 個加速器實現(xiàn)了近線性 95%的擴展。
目前,已有部分廠商推出了基于英特爾 AI 加速卡的產(chǎn)品。在發(fā)布活動中,英特爾宣布 Gaudi2 首先將通過浪潮信息向國內(nèi)客戶提供,打造并發(fā)售基于 Gaudi2深度學(xué)習(xí)加速器的浪潮信息 AI 服務(wù)器 NF5698G7。其服務(wù)器集成了 8 塊 Gaudi2加速卡 HL-225B,還包含兩顆第四代英特爾至強可擴展處理器。 編輯:黃飛
?
電子發(fā)燒友App












































評論