人工智能處理需要跨硬件和軟件平臺的全棧創(chuàng)新,以滿足神經(jīng)網(wǎng)絡(luò)日益增長的計算需求。提高效率的一個關(guān)鍵領(lǐng)域是使用較低精度的數(shù)字格式來提高計算效率,減少內(nèi)存使用,并優(yōu)化互連帶寬。
為了實現(xiàn)這些好處,業(yè)界已經(jīng)從 32 位精度轉(zhuǎn)換為 16 位,現(xiàn)在甚至是 8 位精度格式。 transformer 網(wǎng)絡(luò)是人工智能中最重要的創(chuàng)新之一,尤其受益于 8 位浮點(diǎn)精度。我們相信,擁有一種通用的交換格式將使硬件和軟件平臺的快速發(fā)展和互操作性得以提高,從而推動計算。
NVIDIA 、 Arm 和 Intel 聯(lián)合撰寫了一份白皮書 FP8 Formats for Deep Learning ,描述了 8 位浮點(diǎn)( FP8 )規(guī)范。它提供了一種通用的格式,通過優(yōu)化內(nèi)存使用來加速人工智能的開發(fā),并適用于人工智能訓(xùn)練和推理。此 FP8 規(guī)格有兩種變體, E5M2 和 E4M3 。
該格式在 NVIDIA 料斗體系結(jié)構(gòu)中本地實現(xiàn),并在初始測試中顯示出出色的結(jié)果。它將立即受益于更廣泛的生態(tài)系統(tǒng)所做的工作,包括 AI 框架,為開發(fā)者實現(xiàn)它。
兼容性和靈活性
FP8 通過硬件和軟件之間的良好平衡,最大限度地減少了與現(xiàn)有 IEEE 754 浮點(diǎn)格式的偏差,以利用現(xiàn)有實現(xiàn),加快采用速度,并提高開發(fā)人員的生產(chǎn)力。
E5M2 使用五位表示指數(shù),兩位表示尾數(shù),是一種截斷的 IEEE FP16 格式。在需要更高精度而犧牲某些數(shù)值范圍的情況下, E4M3 格式進(jìn)行了一些調(diào)整,以擴(kuò)展用四位指數(shù)和三位尾數(shù)表示的范圍。
新格式節(jié)省了額外的計算周期,因為它只使用 8 位。它可以用于人工智能訓(xùn)練和推理,而不需要在精度之間進(jìn)行任何重鑄。此外,通過最小化與現(xiàn)有浮點(diǎn)格式的偏差,它為未來 AI 創(chuàng)新提供了最大的自由度,同時仍堅持當(dāng)前的慣例。
高精度訓(xùn)練和推理
測試提議的 FP8 格式顯示,在廣泛的用例、架構(gòu)和網(wǎng)絡(luò)中,其精度相當(dāng)于 16 位精度。變壓器、計算機(jī)視覺和 GAN 網(wǎng)絡(luò)的結(jié)果都表明, FP8 訓(xùn)練精度與 16 位精度相似,但可以顯著提高速度。有關(guān)精度研究的更多信息,請參閱 FP8 Formats for Deep Learning 白皮書。

圖 1.語言模型人工智能培訓(xùn)
在圖 1 中,不同的網(wǎng)絡(luò)使用不同的精度度量( PPL 和 Loss ),如圖所示。

圖 2.語言模型 AI 推理
在人工智能行業(yè)領(lǐng)先的基準(zhǔn) MLPerf Inference v2.1 中, NVIDIA Hopper 利用這種新的 FP8 格式在 BERT 高精度模型上實現(xiàn)了 4.5 倍的加速,在不影響精度的情況下獲得了吞吐量。
走向標(biāo)準(zhǔn)化
NVIDIA 、 Arm 和 Intel 以開放、無許可證的格式發(fā)布了此規(guī)范,以鼓勵行業(yè)廣泛采用。他們還將向 IEEE 提交該提案。
通過采用一種保持準(zhǔn)確性的可互換格式,人工智能模型將在所有硬件平臺上持續(xù)高效地運(yùn)行,并有助于推動人工智能的發(fā)展。
鼓勵標(biāo)準(zhǔn)機(jī)構(gòu)和整個行業(yè)
關(guān)于作者
Shar Narasimhan 是 AI 的高級產(chǎn)品營銷經(jīng)理,專門從事 NVIDIA 的 Tesla 數(shù)據(jù)中心團(tuán)隊的深度學(xué)習(xí)培訓(xùn)和 OEM 業(yè)務(wù)。
審核編輯:郭婷
-
ARM
+關(guān)注
關(guān)注
135文章
9553瀏覽量
391905 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5594瀏覽量
109749 -
人工智能
+關(guān)注
關(guān)注
1817文章
50098瀏覽量
265402
發(fā)布評論請先 登錄
SK海力士與閃迪公司啟動HBF全球標(biāo)準(zhǔn)化制定工作
進(jìn)迭時空發(fā)布新一代RISC-V AI CPU芯片,滿足端側(cè)大模型算力需求
廣電計量參編多項國家標(biāo)準(zhǔn)與計量技術(shù)規(guī)范發(fā)布
廣凌標(biāo)準(zhǔn)化考場建設(shè)方案的核心模塊
廣凌標(biāo)準(zhǔn)化考場整體解決方案解析:構(gòu)建智慧考場新標(biāo)桿
NVIDIA Spectrum-X 以太網(wǎng)交換機(jī)助力 Meta 和 Oracle 加速網(wǎng)絡(luò)性能
BPI-AIM7 RK3588 AI與 Nvidia Jetson Nano 生態(tài)系統(tǒng)兼容的低功耗 AI 模塊
廣凌標(biāo)準(zhǔn)化考場建設(shè)整體解決方案——全力維護(hù)高考安全公平考試環(huán)境
廣凌高校標(biāo)準(zhǔn)化考場建設(shè)解決方案
摩爾線程發(fā)布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0
禾賽科技引領(lǐng)全球激光雷達(dá)標(biāo)準(zhǔn)化建設(shè)
瑞為技術(shù)牽頭制定的國家標(biāo)準(zhǔn)《信息技術(shù) 可擴(kuò)展的生物特征識別數(shù)據(jù)交換格式 第1部分:框架》正式發(fā)布
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
摩爾線程GPU原生FP8計算助力AI訓(xùn)練
NVIDIA 、 Arm和Intel發(fā)布FP8標(biāo)準(zhǔn)化規(guī)范作為AI的交換格式
評論