91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

FlashAttention2詳解(性能比FlashAttention提升200%)

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-11-24 16:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要

在過去幾年中,如何擴(kuò)展Transformer使之能夠處理更長的序列一直是一個(gè)重要問題,因?yàn)檫@能提高Transformer語言建模性能和高分辨率圖像理解能力,以及解鎖代碼、音頻和視頻生成等新應(yīng)用。然而增加序列長度,注意力層是主要瓶頸,因?yàn)樗倪\(yùn)行時(shí)間和內(nèi)存會(huì)隨序列長度的增加呈二次(平方)增加。FlashAttention利用GPU非勻稱的存儲(chǔ)器層次結(jié)構(gòu),實(shí)現(xiàn)了顯著的內(nèi)存節(jié)?。◤钠椒皆黾愚D(zhuǎn)為線性增加)和計(jì)算加速(提速2-4倍),而且計(jì)算結(jié)果保持一致。但是,F(xiàn)lashAttention仍然不如優(yōu)化的矩陣乘法(GEMM)操作快,只達(dá)到理論最大FLOPs/s的25-40%。作者觀察到,這種低效是由于GPU對(duì)不同thread blocks和warps工作分配不是最優(yōu)的,造成了利用率低和不必要的共享內(nèi)存讀寫。因此,本文提出了FlashAttention-2以解決這些問題。

簡介

如何擴(kuò)展Transformer使之能夠處理更長的序列一直是一個(gè)挑戰(zhàn),**因?yàn)槠浜诵淖⒁饬拥倪\(yùn)行時(shí)間和內(nèi)存占用量隨輸入序列長度成二次增加。**我們希望能夠打破2k序列長度限制,從而能夠訓(xùn)練書籍、高分辨率圖像和長視頻。此外,寫作等應(yīng)用也需要模型能夠處理長序列。過去一年中,業(yè)界推出了一些遠(yuǎn)超之前長度的語言模型:GPT-4為32k,MosaicML的MPT為65k,以及Anthropic的Claude為100k。

雖然相比標(biāo)準(zhǔn)Attention,F(xiàn)lashAttention快了2~4倍,節(jié)約了10~20倍內(nèi)存,但是離設(shè)備理論最大throughput和flops還差了很多。本文提出了FlashAttention-2,它具有更好的并行性和工作分區(qū)。實(shí)驗(yàn)結(jié)果顯示,F(xiàn)lashAttention-2在正向傳遞中實(shí)現(xiàn)了約2倍的速度提升,達(dá)到了理論最大吞吐量的73%,在反向傳遞中達(dá)到了理論最大吞吐量的63%。在每個(gè)A100 GPU上的訓(xùn)練速度可達(dá)到225 TFLOPs/s。

本文主要貢獻(xiàn)和創(chuàng)新點(diǎn)為:

1. 減少了non-matmul FLOPs的數(shù)量(消除了原先頻繁rescale)。雖然non-matmul FLOPs僅占總FLOPs的一小部分,但它們的執(zhí)行時(shí)間較長,這是因?yàn)镚PU有專用的矩陣乘法計(jì)算單元,其吞吐量高達(dá)非矩陣乘法吞吐量的16倍。因此,減少non-matmul FLOPs并盡可能多地執(zhí)行matmul FLOPs非常重要。

2. 提出了在序列長度維度上并行化。該方法在輸入序列很長(此時(shí)batch size通常很?。┑那闆r下增加了GPU利用率。即使對(duì)于單個(gè)head,也在不同的thread block之間進(jìn)行并行計(jì)算。

3. 在一個(gè)attention計(jì)算塊內(nèi),將工作分配在一個(gè)thread block的不同warp上,以減少通信和共享內(nèi)存讀/寫。

動(dòng)機(jī)

為了解決這個(gè)問題,研究者們也提出了很多近似的attention算法,然而目前使用最多的還是標(biāo)準(zhǔn)attention。FlashAttention利用tiling、recomputation等技術(shù)顯著提升了計(jì)算速度(提升了2~4倍),并且將內(nèi)存占用從平方代價(jià)將為線性代價(jià)(節(jié)約了10~20倍內(nèi)存)。雖然FlashAttention效果很好,但是仍然不如其他基本操作(如矩陣乘法)高效。例如,其前向推理僅達(dá)到GPU(A100)理論最大FLOPs/s的30-50%(下圖);反向傳播更具挑戰(zhàn)性,在A100上僅達(dá)到最大吞吐量的25-35%。相比之下,優(yōu)化后的GEMM(矩陣乘法)可以達(dá)到最大吞吐量的80-90%。通過觀察分析,這種低效是由于GPU對(duì)不同thread blocks和warps工作分配不是最優(yōu)的,造成了利用率低和不必要的共享內(nèi)存讀寫。

959fa84a-76f8-11ee-939d-92fbcf53809c.jpg

Attention forward speed on A100 GPU. (Source: Figure 5 of the paper.)

背景知識(shí)

下面介紹一些關(guān)于GPU的性能和計(jì)算特點(diǎn),有關(guān)Attention和FlashAttention的詳細(xì)內(nèi)容請(qǐng)參考第一篇文章

FlashAttention圖解(如何加速Attention)

GPU

GPU performance characteristics.GPU主要計(jì)算單元(如浮點(diǎn)運(yùn)算單元)和內(nèi)存層次結(jié)構(gòu)。大多數(shù)現(xiàn)代GPU包含專用的低精度矩陣乘法單元(如Nvidia GPU的Tensor Core用于FP16/BF16矩陣乘法)。內(nèi)存層次結(jié)構(gòu)分為高帶寬內(nèi)存(High Bandwidth Memory, HBM)和片上SRAM(也稱為shared memory)。以A100 GPU為例,它具有40-80GB的HBM,帶寬為1.5-2.0TB/s,每個(gè)108個(gè)streaming multiprocessors共享的SRAM為192KB,帶寬約為19TB/s。

這里忽略了L2緩存,因?yàn)椴荒苤苯颖挥?a href="http://m.makelele.cn/v/tag/1730/" target="_blank">程序員控制。

95acec58-76f8-11ee-939d-92fbcf53809c.jpg

CUDA的軟件和硬件架構(gòu)

從Hardware角度來看:

Streaming Processor(SP):是最基本的處理單元,從fermi架構(gòu)開始被叫做CUDA core。

Streaming MultiProcessor(SM):一個(gè)SM由多個(gè)CUDA core(SP)組成,每個(gè)SM在不同GPU架構(gòu)上有不同數(shù)量的CUDA core,例如Pascal架構(gòu)中一個(gè)SM有128個(gè)CUDA core。

SM還包括特殊運(yùn)算單元(SFU),共享內(nèi)存(shared memory),寄存器文件(Register File)和調(diào)度器(Warp Scheduler)等。register和shared memory是稀缺資源,這些有限的資源就使每個(gè)SM中active warps有非常嚴(yán)格的限制,也就限制了并行能力。

從Software(編程)角度來看:

95b87a46-76f8-11ee-939d-92fbcf53809c.jpg

CUDA軟件示例

thread是最基本的執(zhí)行單元(the basic unit of execution)。

warp是SM中最小的調(diào)度單位(the smallest scheduling unit on an SM),一個(gè)SM可以同時(shí)處理多個(gè)warp

thread block是GPU執(zhí)行的最小單位(the smallest unit of execution on the GPU)。

一個(gè)warp中的threads必然在同一個(gè)block中,如果block所含thread數(shù)量不是warp大小的整數(shù)倍,那么多出的那個(gè)warp中會(huì)剩余一些inactive的thread。也就是說,即使warp的thread數(shù)量不足,硬件也會(huì)為warp湊足thread,只不過這些thread是inactive狀態(tài),但也會(huì)消耗SM資源。

thread:一個(gè)CUDA并行程序由多個(gè)thread來執(zhí)行

warp:一個(gè)warp通常包含32個(gè)thread。每個(gè)warp中的thread可以同時(shí)執(zhí)行相同的指令,從而實(shí)現(xiàn)SIMT(單指令多線程)并行。

thread block:一個(gè)thread block可以包含多個(gè)warp,同一個(gè)block中的thread可以同步,也可以通過shared memory進(jìn)行通信。

grid:在GPU編程中,grid是一個(gè)由多個(gè)thread block組成的二維或三維數(shù)組。grid的大小取決于計(jì)算任務(wù)的規(guī)模和thread block的大小,通常根據(jù)計(jì)算任務(wù)的特點(diǎn)和GPU性能來進(jìn)行調(diào)整。

Hardware和Software的聯(lián)系:

SM采用的是Single-Instruction Multiple-Thread(SIMT,單指令多線程)架構(gòu),warp是最基本的執(zhí)行單元,一個(gè)warp包含32個(gè)并行thread,這些thread以不同數(shù)據(jù)資源執(zhí)行相同的指令。

當(dāng)一個(gè)kernel被執(zhí)行時(shí),grid中的thread block被分配到SM上,大量的thread可能被分到不同的SM上,但是一個(gè)線程塊的thread只能在一個(gè)SM上調(diào)度,SM一般可以調(diào)度多個(gè)block。每個(gè)thread擁有自己的程序計(jì)數(shù)器和狀態(tài)寄存器,并且可以使用不同的數(shù)據(jù)來執(zhí)行指令,從而實(shí)現(xiàn)并行計(jì)算,這就是所謂的Single Instruction Multiple Thread。

一個(gè)CUDA core可以執(zhí)行一個(gè)thread,一個(gè)SM中的CUDA core會(huì)被分成幾個(gè)warp,由warp scheduler負(fù)責(zé)調(diào)度。GPU規(guī)定warp中所有thread在同一周期執(zhí)行相同的指令,盡管這些thread執(zhí)行同一程序地址,但可能產(chǎn)生不同的行為,比如分支結(jié)構(gòu)。一個(gè)SM同時(shí)并發(fā)的warp是有限的,由于資源限制,SM要為每個(gè)block分配共享內(nèi)存,也要為每個(gè)warp中的thread分配獨(dú)立的寄存器,所以SM的配置會(huì)影響其所支持的block和warp并發(fā)數(shù)量。

GPU執(zhí)行模型小結(jié):

GPU有大量的threads用于執(zhí)行操作(an operation,也稱為a kernel)。這些thread組成了thread block,接著這些blocks被調(diào)度在SMs上運(yùn)行。在每個(gè)thread block中,threads被組成了warps(32個(gè)threads為一組)。一個(gè)warp內(nèi)的threads可以通過快速shuffle指令進(jìn)行通信或者合作執(zhí)行矩陣乘法。在每個(gè)thread block內(nèi)部,warps可以通過讀取/寫入共享內(nèi)存進(jìn)行通信。每個(gè)kernel從HBM加載數(shù)據(jù)到寄存器和SRAM中,進(jìn)行計(jì)算,最后將結(jié)果寫回HBM中。

FlashAttention

FlashAttention應(yīng)用了tiling技術(shù)來減少內(nèi)存訪問,具體來說:

1. 從HBM中加載輸入數(shù)據(jù)(K,Q,V)的一部分到SRAM中

2. 計(jì)算這部分?jǐn)?shù)據(jù)的Attention結(jié)果

3. 更新輸出到HBM,但是無需存儲(chǔ)中間數(shù)據(jù)S和P

下圖展示了一個(gè)示例:首先將K和V分成兩部分(K1和K2,V1和V2,具體如何劃分根據(jù)數(shù)據(jù)大小和GPU特性調(diào)整),根據(jù)K1和Q可以計(jì)算得到S1和A1,然后結(jié)合V1得到O1。接著計(jì)算第二部分,根據(jù)K2和Q可以計(jì)算得到S2和A2,然后結(jié)合V2得到O2。最后O2和O1一起得到Attention結(jié)果。

95d09586-76f8-11ee-939d-92fbcf53809c.jpg

值得注意的是,輸入數(shù)據(jù)K、Q、V是存儲(chǔ)在HBM上的,中間結(jié)果S、A都不需要存儲(chǔ)到HBM上。通過這種方式,F(xiàn)lashAttention可以將內(nèi)存開銷降低到線性級(jí)別,并實(shí)現(xiàn)了2-4倍的加速,同時(shí)避免了對(duì)中間結(jié)果的頻繁讀寫,從而提高了計(jì)算效率。

FlashAttention-2

經(jīng)過鋪墊,正式進(jìn)入正文。我們先講述FlashAttention-2對(duì)FlashAttention的改進(jìn),從而減少了非矩陣乘法運(yùn)算(non-matmul)的FLOPs。然后說明如何將任務(wù)分配給不同的thread block進(jìn)行并行計(jì)算,充分利用GPU資源。最后描述了如何在一個(gè)thread block內(nèi)部分配任務(wù)給不同的warps,以減少訪問共享內(nèi)存次數(shù)。這些優(yōu)化方案使得FlashAttention-2的性能提升了2-3倍。

Algorithm

FlashAttention在FlashAttention算法基礎(chǔ)上進(jìn)行了調(diào)整,減少了非矩陣乘法運(yùn)算(non-matmul)的FLOPs。這是因?yàn)楝F(xiàn)代GPU有針對(duì)matmul(GEMM)專用的計(jì)算單元(如Nvidia GPU上的Tensor Cores),效率很高。以A100 GPU為例,其FP16/BF16矩陣乘法的最大理論吞吐量為312 TFLOPs/s,但FP32非矩陣乘法僅有19.5 TFLOPs/s,即每個(gè)no-matmul FLOP比mat-mul FLOP昂貴16倍。為了確保高吞吐量(例如超過最大理論TFLOPs/s的50%),我們希望盡可能將時(shí)間花在matmul FLOPs上。

Forward pass

通常實(shí)現(xiàn)Softmax算子為了數(shù)值穩(wěn)定性(因?yàn)橹笖?shù)增長太快,數(shù)值會(huì)過大甚至溢出),會(huì)減去最大值:

95d47dae-76f8-11ee-939d-92fbcf53809c.png

這樣帶來的代價(jià)就是要對(duì)95df671e-76f8-11ee-939d-92fbcf53809c.png遍歷3次。

為了減少non-matmul FLOPs,本文在FlashAttention基礎(chǔ)上做了兩點(diǎn)改進(jìn):

95ed1a30-76f8-11ee-939d-92fbcf53809c.png

95f7f234-76f8-11ee-939d-92fbcf53809c.png

960c8b2c-76f8-11ee-939d-92fbcf53809c.png

簡單示例的FlashAttention完整計(jì)算步驟(紅色部分表示V1和V2區(qū)別):

9615dea2-76f8-11ee-939d-92fbcf53809c.jpg

FlashAttention-2的完整計(jì)算步驟(紅色部分表示V1和V2區(qū)別):

962181e4-76f8-11ee-939d-92fbcf53809c.png

962a8410-76f8-11ee-939d-92fbcf53809c.jpg

有了上面分析和之前對(duì)FlashAttention的講解,再看下面?zhèn)未a就沒什么問題了。

962e598c-76f8-11ee-939d-92fbcf53809c.jpg

Causal masking是attention的一個(gè)常見操作,特別是在自回歸語言建模中,需要對(duì)注意力矩陣S應(yīng)用因果掩碼(即任何S ,其中 > 的條目都設(shè)置為?∞)。

1. 由于FlashAttention和FlashAttention-2已經(jīng)通過塊操作來實(shí)現(xiàn),對(duì)于所有列索引都大于行索引的塊(大約占總塊數(shù)的一半),我們可以跳過該塊的計(jì)算。這比沒有應(yīng)用因果掩碼的注意力計(jì)算速度提高了1.7-1.8倍。

2. 不需要對(duì)那些行索引嚴(yán)格小于列索引的塊應(yīng)用因果掩碼。這意味著對(duì)于每一行,我們只需要對(duì)1個(gè)塊應(yīng)用因果掩碼。

Parallelism

FlashAttention在batch和heads兩個(gè)維度上進(jìn)行了并行化:使用一個(gè)thread block來處理一個(gè)attention head,總共需要thread block的數(shù)量等于batch size × number of heads。每個(gè)block被調(diào)到到一個(gè)SM上運(yùn)行,例如A100 GPU上有108個(gè)SMs。當(dāng)block數(shù)量很大時(shí)(例如≥80),這種調(diào)度方式是高效的,因?yàn)閹缀蹩梢杂行Ю肎PU上所有計(jì)算資源。

但是在處理長序列輸入時(shí),由于內(nèi)存限制,通常會(huì)減小batch size和head數(shù)量,這樣并行化成都就降低了。因此,F(xiàn)lashAttention-2還在序列長度這一維度上進(jìn)行并行化,顯著提升了計(jì)算速度。此外,當(dāng)batch size和head數(shù)量較小時(shí),在序列長度上增加并行性有助于提高GPU占用率。

96415c80-76f8-11ee-939d-92fbcf53809c.png

Work Partitioning Between Warps

上一節(jié)討論了如何分配thread block,然而在每個(gè)thread block內(nèi)部,我們也需要決定如何在不同的warp之間分配工作。我們通常在每個(gè)thread block中使用4或8個(gè)warp,如下圖所示。

964a3526-76f8-11ee-939d-92fbcf53809c.jpg

Work partitioning between different warps in the forward pass

964e7a6e-76f8-11ee-939d-92fbcf53809c.png

論文中原話是”However, this is inefficient since all warps need to write their intermediate results out toshared memory, synchronize, then add up the intermediate results.”,說的是shared memory而非HBM,但是結(jié)合下圖黃色框部分推斷,我認(rèn)為是HBM。

966cc258-76f8-11ee-939d-92fbcf53809c.jpg

96714378-76f8-11ee-939d-92fbcf53809c.png

967ddbe2-76f8-11ee-939d-92fbcf53809c.jpg

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 存儲(chǔ)器
    +關(guān)注

    關(guān)注

    39

    文章

    7739

    瀏覽量

    171772
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5204

    瀏覽量

    135584
  • 矩陣
    +關(guān)注

    關(guān)注

    1

    文章

    449

    瀏覽量

    36120

原文標(biāo)題:FlashAttention2詳解(性能比FlashAttention提升200%)

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    汽車?yán)走_(dá)導(dǎo)熱膠耐高溫抗?jié)駸?b class='flag-5'>性能解析 |鉻銳特實(shí)業(yè)

    鉻銳特實(shí)業(yè)|東莞導(dǎo)熱膠廠家|詳解汽車毫米波雷達(dá)模塊導(dǎo)熱膠的耐高溫(-55~200℃)與抗?jié)駸幔?5℃ 85%RH 1000h)性能,包含關(guān)鍵指標(biāo)、測(cè)試數(shù)據(jù)及可靠性保障,幫助提升ADAS
    的頭像 發(fā)表于 03-14 00:32 ?25次閱讀
    汽車?yán)走_(dá)導(dǎo)熱膠耐高溫抗?jié)駸?b class='flag-5'>性能</b>解析 |鉻銳特實(shí)業(yè)

    斯特綜合性能測(cè)試機(jī)提升電池組性能驗(yàn)證效率精度

    深圳斯特自動(dòng)化設(shè)備有限公司推出的綜合性能測(cè)試機(jī),憑通過技術(shù)創(chuàng)新重新定義了電池性能測(cè)試的標(biāo)準(zhǔn),在保證測(cè)試精度的同時(shí),提升了驗(yàn)證效率。
    的頭像 發(fā)表于 02-06 16:37 ?960次閱讀
    <b class='flag-5'>比</b>斯特綜合<b class='flag-5'>性能</b>測(cè)試機(jī)<b class='flag-5'>提升</b>電池組<b class='flag-5'>性能</b>驗(yàn)證效率精度

    CQB200 - 24S28替代V24B28LT200B2破交貨周期困局

    CQB200 - 24S28替代V24B28T200BL2破交貨周期困局在工業(yè)電源模塊選型過程中,VICOR品牌的V24B28T200BL2雖憑借卓越性能在業(yè)內(nèi)廣受贊譽(yù),然而其長達(dá)26
    發(fā)表于 02-05 08:58

    單端口VDSL2線路驅(qū)動(dòng)器AD8398A:性能與應(yīng)用詳解

    單端口VDSL2線路驅(qū)動(dòng)器AD8398A:性能與應(yīng)用詳解 在電子工程師的日常工作中,線路驅(qū)動(dòng)器的選擇至關(guān)重要,它直接影響著整個(gè)系統(tǒng)的性能和穩(wěn)定性。今天,我們就來詳細(xì)探討一下Analog
    的頭像 發(fā)表于 01-23 10:20 ?195次閱讀

    解析LT1716:高性能比較器的卓越之選

    解析LT1716:高性能比較器的卓越之選 在電子設(shè)計(jì)領(lǐng)域,比較器是一款常用且重要的器件,其性能的優(yōu)劣直接影響到整個(gè)系統(tǒng)的穩(wěn)定性和準(zhǔn)確性。今天,我們就來深入探討一款高性能比較器——LT1716,看看它
    的頭像 發(fā)表于 01-07 15:35 ?257次閱讀

    探索 LT6703 系列:低功耗、高性能比較器的理想之選

    探索 LT6703 系列:低功耗、高性能比較器的理想之選 在電子設(shè)計(jì)領(lǐng)域,比較器是不可或缺的基礎(chǔ)元件,廣泛應(yīng)用于各種電路中實(shí)現(xiàn)信號(hào)的比較和處理。今天,我們就來深入了解一下 Linear
    的頭像 發(fā)表于 01-07 14:40 ?236次閱讀

    提前實(shí)測(cè)AT4V H00電流傳感器,抗諧波干擾性能比同類型產(chǎn)品提升30%!

    電子2025升級(jí)款A(yù)T4VH00霍爾開環(huán)電流傳感器,專門針對(duì)工業(yè)場(chǎng)景核心痛點(diǎn)“抗諧波干擾”做了專項(xiàng)實(shí)測(cè),結(jié)果直接超出預(yù)期:其抗諧波干擾性能比同價(jià)位主流產(chǎn)品提升30%
    的頭像 發(fā)表于 12-22 16:06 ?512次閱讀
    提前實(shí)測(cè)AT4V H00電流傳感器,抗諧波干擾<b class='flag-5'>性能比</b>同類型產(chǎn)品<b class='flag-5'>提升</b>30%!

    谷歌云發(fā)布最強(qiáng)自研TPU,性能比前代提升4倍

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)近日,谷歌云在官方博客上正式宣布,公司成功推出第七代TPU(張量處理器)“Ironwood”,該芯片預(yù)計(jì)在未來幾周內(nèi)正式上市。 ? “Ironwood”由谷歌自主精心設(shè)計(jì),能夠輕松處理從大型模型訓(xùn)練到實(shí)時(shí)聊天機(jī)器人運(yùn)行以及AI智能體操作等各類復(fù)雜任務(wù)。 ? 谷歌在新聞稿中著重強(qiáng)調(diào),“Ironwood”是專為應(yīng)對(duì)最嚴(yán)苛的工作負(fù)載而打造的。無論是大規(guī)模模型訓(xùn)練、復(fù)雜的強(qiáng)化學(xué)習(xí)(RL),還是高容量、低延遲的AI推理和模型服務(wù),
    的頭像 發(fā)表于 11-13 07:49 ?8653次閱讀
    谷歌云發(fā)布最強(qiáng)自研TPU,<b class='flag-5'>性能比</b>前代<b class='flag-5'>提升</b>4倍

    小白學(xué)大模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架構(gòu)中,注意力機(jī)制的計(jì)算復(fù)雜度與序列長度(即文本長度)呈平方關(guān)系()。這意味著,當(dāng)模型需要處理更長的文本時(shí)(比如從幾千個(gè)詞到幾萬個(gè)詞),計(jì)算時(shí)間和所需的內(nèi)存會(huì)急劇增加。最開始的標(biāo)準(zhǔn)注意力機(jī)制存在兩個(gè)主要問題:內(nèi)存占用高:模型需要生成一個(gè)巨大的注意力矩陣(N×N)。這個(gè)矩陣需要被保存在高帶寬內(nèi)存(HBM)中。對(duì)于長序列,這很快就會(huì)超出G
    的頭像 發(fā)表于 09-10 09:28 ?4846次閱讀
    小白學(xué)大模型:大模型加速的秘密 <b class='flag-5'>FlashAttention</b> 1/<b class='flag-5'>2</b>/3

    EV12AS200A的采樣延遲微調(diào)如何提升相位精度?

    提前或延后,步進(jìn)就是 24 fs。3. 相位精度提升的數(shù)學(xué)關(guān)系? 對(duì)于 1.5 GSPS、3.3 GHz 滿功率帶寬,24 fs 對(duì)應(yīng)相位誤差 ≈ 2π × 3.3 GHz × 24 fs ≈ 0.5
    發(fā)表于 08-04 08:46

    什么是共模抑制?

    共模抑制詳解在探頭的數(shù)據(jù)手冊(cè)上,共模抑制性能參數(shù)是核心指標(biāo)之一。共模抑制又名CMRR,通常用分貝(dB)來表示,其計(jì)算公式為:其中其中
    的頭像 發(fā)表于 06-23 09:45 ?1388次閱讀
    什么是共模抑制<b class='flag-5'>比</b>?

    進(jìn)迭時(shí)空第三代高性能核X200研發(fā)進(jìn)展

    繼X60和X100之后,進(jìn)迭時(shí)空正在基于開源香山昆明湖架構(gòu)研發(fā)第三代高性能處理器核X200。與進(jìn)迭時(shí)空的第二代高性能核X100相,X200
    的頭像 發(fā)表于 06-06 16:56 ?1437次閱讀
    進(jìn)迭時(shí)空第三代高<b class='flag-5'>性能</b>核X<b class='flag-5'>200</b>研發(fā)進(jìn)展

    快手上線鴻蒙應(yīng)用高性能解決方案:數(shù)據(jù)反序列化性能提升90%

    近日,快手在Gitee平臺(tái)上線了鴻蒙應(yīng)用性能優(yōu)化解決方案“QuickTransformer”,該方案針對(duì)鴻蒙應(yīng)用開發(fā)中廣泛使用的三方庫“class-transformer”進(jìn)行了深度優(yōu)化,有效提升
    發(fā)表于 05-15 10:01

    能效和算力提升的衡量方法

    /h·W表示。 影響因素及優(yōu)化方向? 技術(shù)升級(jí)?:采用變頻技術(shù)、高效電機(jī)等可提升能效,例如變頻空調(diào)通過動(dòng)態(tài)調(diào)節(jié)功率減少能耗。 環(huán)境因素?:溫度、濕度等外部條件會(huì)影響實(shí)際能效表現(xiàn),需結(jié)合具體場(chǎng)景評(píng)估。 系統(tǒng)優(yōu)化?:通過維護(hù)保養(yǎng)(如清潔濾網(wǎng))和合理選
    的頭像 發(fā)表于 04-28 07:47 ?3325次閱讀
    能效<b class='flag-5'>比</b>和算力<b class='flag-5'>提升</b>的衡量方法

    直線電機(jī)與旋轉(zhuǎn)電機(jī)性能比

    直線電機(jī)與旋轉(zhuǎn)電機(jī)作為現(xiàn)代工業(yè)驅(qū)動(dòng)系統(tǒng)的兩大核心組件,各自擁有獨(dú)特的性能特點(diǎn)和適用場(chǎng)景。本文將從速度、加速度、精度、動(dòng)態(tài)響應(yīng)、結(jié)構(gòu)及應(yīng)用領(lǐng)域等多個(gè)維度,對(duì)直線電機(jī)與旋轉(zhuǎn)電機(jī)進(jìn)行全面而深入的性能比
    的頭像 發(fā)表于 03-16 16:55 ?2189次閱讀