欧美一区二区三区在线aaa,三级黄在线a成人激情婷婷,欧美成人另类电影

作者：Alex Pim，Imagination 軟件架構(gòu)Fellow

在Imagination，我們致力于加速大語(yǔ)言模型在日常設(shè)備上的運(yùn)行。在本系列關(guān)于大語(yǔ)言模型性能與加速的兩篇博客的首篇中，我們將介紹關(guān)鍵性能指標(biāo)：首次生成Token時(shí)間（TTFT）與Token間延遲（ITL）。在下一篇文章中，我們將分享如何在Imagination GPU上實(shí)現(xiàn)高效的Llama.cpp推理。

若您看過谷歌的“AI概覽”或體驗(yàn)過Word里的詞匯預(yù)測(cè)功能，那便是LLM在發(fā)揮作用。它們基于Transformer網(wǎng)絡(luò)構(gòu)建，而Transformer使用注意力機(jī)制（attention）來聚焦輸入中最相關(guān)的部分——就像你在觀看一場(chǎng)足球比賽時(shí)，會(huì)本能地盯著帶球的球員，而不是場(chǎng)上另外21位球員。LLM的神奇之處在于，通過對(duì)概率的建模，它們能夠捕捉到某種程度上的人類思維模式，因此在各種應(yīng)用中都具有巨大的價(jià)值。

挑戰(zhàn)在于這一切都需要強(qiáng)大的計(jì)算能力。LLM依賴大規(guī)模矩陣運(yùn)算，這類運(yùn)算要求高但高度并行——換言之，正是GPU的完美用武之地。

閱讀白皮書《AI處理器的真正本質(zhì)》可了解GPU為何能完美勝任高度并行任務(wù)。

正因如此，包括基于PowerVR架構(gòu)的Imagination GPU在內(nèi)的圖形處理器，在提升模型運(yùn)行速度與效率方面發(fā)揮著關(guān)鍵作用——尤其在功耗與性能至關(guān)重要的移動(dòng)及邊緣設(shè)備領(lǐng)域。

加速大語(yǔ)言模型推理

大語(yǔ)言模型（LLMs）通過提取先前Token的上下文窗口來生成文本，并預(yù)測(cè)序列中的下一個(gè)Token。當(dāng)首次提交提示時(shí)，模型必須處理上下文窗口中的所有Token，這可能需要大量計(jì)算資源。模型生成的每個(gè)新Token都會(huì)附加到上下文窗口中的先前Token之后：這是一種自回歸模型。

隨著每個(gè)新生成的token，推理速度將逐漸變慢。

為提升效率，框架常采用鍵值緩存機(jī)制，將先前處理過的token的中間結(jié)果存儲(chǔ)其中。這種方法避免了冗余計(jì)算，顯著加速了推理過程，使大語(yǔ)言模型即使在普通硬件上也能實(shí)際應(yīng)用。同時(shí)，當(dāng)新token生成時(shí)，該機(jī)制能使執(zhí)行時(shí)間保持近似恒定。

由于KV緩存機(jī)制，大語(yǔ)言模型通常以兩種截然不同的模式運(yùn)行：

預(yù)填充模式：模型處理整個(gè)token序列并初始化緩存。該階段涉及大規(guī)模矩陣乘法運(yùn)算，通常受限于GPU的計(jì)算吞吐量。

解碼模式：復(fù)用緩存結(jié)果生成后續(xù)token。由于跳過前期計(jì)算，該模式速度顯著提升。其依賴矩陣-向量乘法運(yùn)算，通常受限于GPU內(nèi)存帶寬（用于流式傳輸權(quán)重和激活值）。

兩種模式在用戶體驗(yàn)和硬件資源消耗方面存在差異，因此應(yīng)分別采用專屬性能指標(biāo)進(jìn)行評(píng)估。

LLM性能指標(biāo)

討論LLM部署性能時(shí)，主要涉及兩項(xiàng)指標(biāo)：

首次token生成時(shí)間（TTFT）——預(yù)填充模式下執(zhí)行計(jì)算任務(wù)所需時(shí)間

Token間延遲（ITL）——解碼模式下執(zhí)行計(jì)算任務(wù)所需時(shí)間

首次生成token時(shí)間(Time to First Token)

TTFT指標(biāo)指大語(yǔ)言模型生成首個(gè)輸出token所需的時(shí)間，此時(shí)模型必須已處理完全部用戶輸入提示（即預(yù)填充階段完成）。

“首次生成Token的時(shí)間（Time to First Token）在大語(yǔ)言模型應(yīng)用于汽車場(chǎng)景或交互式應(yīng)用中通常非常重要；因?yàn)槿祟愐呀?jīng)習(xí)慣了以自己的說話速度被‘聽見’。如果一個(gè)數(shù)字助手或應(yīng)用程序的響應(yīng)速度達(dá)不到人與人交流時(shí)的反應(yīng)速度，那么用戶的整體‘體驗(yàn)’就會(huì)開始下降?！?/span>

試想若在谷歌搜索時(shí)輸入問題卻需等待數(shù)十秒才能獲得答案——這在當(dāng)今標(biāo)準(zhǔn)下相當(dāng)令人沮喪（盡管我們中有些人曾經(jīng)歷過從磁帶加載電腦游戲的漫長(zhǎng)等待）。

因此無論是數(shù)據(jù)中心部署還是邊緣計(jì)算場(chǎng)景，GPU供應(yīng)商面臨的核心挑戰(zhàn)在于：即使在功耗受限或網(wǎng)絡(luò)延遲高的環(huán)境下，仍需為用戶提供迅捷的首次響應(yīng)。

具體而言，大型語(yǔ)言模型（如Llama-3.2-3b）要生成輸入查詢的首個(gè)token，需處理大量矩陣乘法運(yùn)算（下表所示），其中參數(shù)N代表用戶輸入token數(shù)量（此例為13）。以用戶提示詞“建站只需10步：”為例：

M: 1024, K: 3072, N: 13

M: 128, K: 32, N: 13

M: 3072, K: 3072, N: 13

M: 3072, K: 8192, N: 13

M: 32, K: 128, N: 13

M: 8192, K: 3072, N: 13

表1 - LLAMA-3.2-3B型號(hào)典型GEMM M、K和N尺寸

llama.cpp中的矩陣乘法運(yùn)算執(zhí)行如下矩陣乘法：

CT= A * BT

這意味著矩陣C (NxM)的計(jì)算方式為A(M*K) * B(N*K)。值得注意的是，C和B均為轉(zhuǎn)置矩陣，這意味著轉(zhuǎn)置矩陣的元素相對(duì)于原始矩陣沿對(duì)角線方向進(jìn)行了交換。

在LLM預(yù)填充階段所需的矩陣乘法運(yùn)算中，存在若干較大維度的矩陣操作——這正是PowerVR GPU大顯身手的環(huán)節(jié)！這些矩陣乘法運(yùn)算具有獨(dú)立性且交互需求極低，與GPU的SIMT架構(gòu)所具備的超大規(guī)模并行特性高度契合。

模型生成首個(gè)輸出token前需執(zhí)行多次上述矩陣乘法迭代，而矩陣運(yùn)算耗時(shí)直接決定了用戶等待模型開始輸出所需的時(shí)間。

Token間延遲(Inter-Token Latency)

衡量大語(yǔ)言模型性能的第二個(gè)指標(biāo)是“Token間延遲（Inter-Token Latency）”，其含義非常直接：即模型生成一個(gè)新Token所需的時(shí)間，或者說模型在逐個(gè)生成輸出時(shí)，兩個(gè)Token之間的間隔時(shí)間。

這個(gè)過程與處理用戶輸入提示（prompt）的過程略有不同，因?yàn)樗婕暗氖蔷仃?向量（matrix-vector）乘法，而不是矩陣-矩陣（matrix-matrix）乘法；并且由于上一節(jié)提到的K-V緩存技術(shù)，這一階段的計(jì)算強(qiáng)度大幅降低。

在生成（或解碼）階段，數(shù)學(xué)操作是一系列矩陣-向量乘法，其中M、K、N中的N始終為1，而上一輪生成的Token（對(duì)應(yīng)的向量）會(huì)作為單一輸入向量，進(jìn)入下一層的一組矩陣-向量乘法中。

加速矩陣-向量乘法可以在GPU上實(shí)現(xiàn)，但由于其計(jì)算量相對(duì)較低，在GPU上反而容易受到內(nèi)存帶寬的限制，這也是為什么LLM的decode階段通?？梢栽趦?nèi)存帶寬限制較小的CPU上執(zhí)行。

普遍認(rèn)為，在LLM的解碼階段，GPU較難發(fā)揮顯著優(yōu)勢(shì)；然而，如果部署芯片（SoC）的主CPU負(fù)載較高，將解碼階段卸載到GPU仍然具有價(jià)值。

M: 128, K: 32, N: 1

M: 1024, K: 3072, N: 1

M: 3072, K: 3072, N: 1

M: 3072, K: 8192, N: 1

M: 32, K: 128, N: 1

M: 8192, K: 3072, N: 1

表2 - LLAMA-3.2-3B模型典型GEMV計(jì)算

結(jié)語(yǔ)

至此，我們關(guān)于在PowerVR GPU等邊緣設(shè)備上加速大型語(yǔ)言模型推理的兩篇博客系列已完成第一部分。我們介紹了“首次生成token時(shí)間”和“Token間延遲”的概念，以及它們?nèi)绾螒?yīng)用于大語(yǔ)言模型計(jì)算的兩個(gè)主要階段。

在第二部分中，我們將剖析Imagination公司為適配PowerVR GPU架構(gòu)對(duì)Llama.cpp應(yīng)用程序所做的代碼修改——涵蓋Vulkan接口與默認(rèn)OpenCL實(shí)現(xiàn)兩種方案。最后將重點(diǎn)分析我們自主優(yōu)化的OpenCL內(nèi)核，這些內(nèi)核專為釋放PowerVR GPU的高利用率而設(shè)計(jì)，在采用F16量化權(quán)重格式時(shí)，能顯著提升矩陣乘矩陣與矩陣-向量乘法運(yùn)算的性能表現(xiàn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴