91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PowerVR上的LLM加速:LLM性能解析

穎脈Imgtec ? 2025-12-10 08:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Alex Pim,Imagination 軟件架構(gòu)Fellow

Imagination,我們致力于加速大語(yǔ)言模型在日常設(shè)備上的運(yùn)行。在本系列關(guān)于大語(yǔ)言模型性能與加速的兩篇博客的首篇中,我們將介紹關(guān)鍵性能指標(biāo):首次生成Token時(shí)間(TTFT)與Token間延遲(ITL)。在下一篇文章中,我們將分享如何在Imagination GPU上實(shí)現(xiàn)高效的Llama.cpp推理。

若您看過谷歌的“AI概覽”或體驗(yàn)過Word里的詞匯預(yù)測(cè)功能,那便是LLM在發(fā)揮作用。它們基于Transformer網(wǎng)絡(luò)構(gòu)建,而Transformer使用注意力機(jī)制(attention)來聚焦輸入中最相關(guān)的部分——就像你在觀看一場(chǎng)足球比賽時(shí),會(huì)本能地盯著帶球的球員,而不是場(chǎng)上另外21位球員。LLM的神奇之處在于,通過對(duì)概率的建模,它們能夠捕捉到某種程度上的人類思維模式,因此在各種應(yīng)用中都具有巨大的價(jià)值。

挑戰(zhàn)在于這一切都需要強(qiáng)大的計(jì)算能力。LLM依賴大規(guī)模矩陣運(yùn)算,這類運(yùn)算要求高但高度并行——換言之,正是GPU的完美用武之地。

閱讀白皮書《AI處理器的真正本質(zhì)》可了解GPU為何能完美勝任高度并行任務(wù)。

正因如此,包括基于PowerVR架構(gòu)的Imagination GPU在內(nèi)的圖形處理器,在提升模型運(yùn)行速度與效率方面發(fā)揮著關(guān)鍵作用——尤其在功耗與性能至關(guān)重要的移動(dòng)及邊緣設(shè)備領(lǐng)域。


加速大語(yǔ)言模型推理

大語(yǔ)言模型(LLMs)通過提取先前Token的上下文窗口來生成文本,并預(yù)測(cè)序列中的下一個(gè)Token。當(dāng)首次提交提示時(shí),模型必須處理上下文窗口中的所有Token,這可能需要大量計(jì)算資源。模型生成的每個(gè)新Token都會(huì)附加到上下文窗口中的先前Token之后:這是一種自回歸模型。

ff3f76be-d55f-11f0-8ce9-92fbcf53809c.png

隨著每個(gè)新生成的token,推理速度將逐漸變慢。

為提升效率,框架常采用鍵值緩存機(jī)制,將先前處理過的token的中間結(jié)果存儲(chǔ)其中。這種方法避免了冗余計(jì)算,顯著加速了推理過程,使大語(yǔ)言模型即使在普通硬件上也能實(shí)際應(yīng)用。同時(shí),當(dāng)新token生成時(shí),該機(jī)制能使執(zhí)行時(shí)間保持近似恒定。

ff4e02f6-d55f-11f0-8ce9-92fbcf53809c.png

由于KV緩存機(jī)制,大語(yǔ)言模型通常以兩種截然不同的模式運(yùn)行:

預(yù)填充模式:模型處理整個(gè)token序列并初始化緩存。該階段涉及大規(guī)模矩陣乘法運(yùn)算,通常受限于GPU的計(jì)算吞吐量。

解碼模式:復(fù)用緩存結(jié)果生成后續(xù)token。由于跳過前期計(jì)算,該模式速度顯著提升。其依賴矩陣-向量乘法運(yùn)算,通常受限于GPU內(nèi)存帶寬(用于流式傳輸權(quán)重和激活值)。

兩種模式在用戶體驗(yàn)和硬件資源消耗方面存在差異,因此應(yīng)分別采用專屬性能指標(biāo)進(jìn)行評(píng)估。


LLM性能指標(biāo)

討論LLM部署性能時(shí),主要涉及兩項(xiàng)指標(biāo):

首次token生成時(shí)間(TTFT)——預(yù)填充模式下執(zhí)行計(jì)算任務(wù)所需時(shí)間

Token間延遲(ITL)——解碼模式下執(zhí)行計(jì)算任務(wù)所需時(shí)間


首次生成token時(shí)間(Time to First Token)

TTFT指標(biāo)指大語(yǔ)言模型生成首個(gè)輸出token所需的時(shí)間,此時(shí)模型必須已處理完全部用戶輸入提示(即預(yù)填充階段完成)。

“首次生成Token的時(shí)間(Time to First Token)在大語(yǔ)言模型應(yīng)用于汽車場(chǎng)景或交互式應(yīng)用中通常非常重要;因?yàn)槿祟愐呀?jīng)習(xí)慣了以自己的說話速度被‘聽見’。如果一個(gè)數(shù)字助手或應(yīng)用程序的響應(yīng)速度達(dá)不到人與人交流時(shí)的反應(yīng)速度,那么用戶的整體‘體驗(yàn)’就會(huì)開始下降?!?/span>

試想若在谷歌搜索時(shí)輸入問題卻需等待數(shù)十秒才能獲得答案——這在當(dāng)今標(biāo)準(zhǔn)下相當(dāng)令人沮喪(盡管我們中有些人曾經(jīng)歷過從磁帶加載電腦游戲的漫長(zhǎng)等待)。

因此無論是數(shù)據(jù)中心部署還是邊緣計(jì)算場(chǎng)景,GPU供應(yīng)商面臨的核心挑戰(zhàn)在于:即使在功耗受限或網(wǎng)絡(luò)延遲高的環(huán)境下,仍需為用戶提供迅捷的首次響應(yīng)。

具體而言,大型語(yǔ)言模型(如Llama-3.2-3b)要生成輸入查詢的首個(gè)token,需處理大量矩陣乘法運(yùn)算(下表所示),其中參數(shù)N代表用戶輸入token數(shù)量(此例為13)。以用戶提示詞“建站只需10步:”為例:

M: 1024, K: 3072, N: 13

M: 128, K: 32, N: 13

M: 3072, K: 3072, N: 13

M: 3072, K: 8192, N: 13

M: 32, K: 128, N: 13

M: 8192, K: 3072, N: 13

表1 - LLAMA-3.2-3B型號(hào)典型GEMM M、K和N尺寸

llama.cpp中的矩陣乘法運(yùn)算執(zhí)行如下矩陣乘法:

CT= A * BT

這意味著矩陣C (NxM)的計(jì)算方式為A(M*K) * B(N*K)。值得注意的是,C和B均為轉(zhuǎn)置矩陣,這意味著轉(zhuǎn)置矩陣的元素相對(duì)于原始矩陣沿對(duì)角線方向進(jìn)行了交換。

在LLM預(yù)填充階段所需的矩陣乘法運(yùn)算中,存在若干較大維度的矩陣操作——這正是PowerVR GPU大顯身手的環(huán)節(jié)!這些矩陣乘法運(yùn)算具有獨(dú)立性且交互需求極低,與GPU的SIMT架構(gòu)所具備的超大規(guī)模并行特性高度契合。

模型生成首個(gè)輸出token前需執(zhí)行多次上述矩陣乘法迭代,而矩陣運(yùn)算耗時(shí)直接決定了用戶等待模型開始輸出所需的時(shí)間。


Token間延遲(Inter-Token Latency)

衡量大語(yǔ)言模型性能的第二個(gè)指標(biāo)是“Token間延遲(Inter-Token Latency)”,其含義非常直接:即模型生成一個(gè)新Token所需的時(shí)間,或者說模型在逐個(gè)生成輸出時(shí),兩個(gè)Token之間的間隔時(shí)間。

這個(gè)過程與處理用戶輸入提示(prompt)的過程略有不同,因?yàn)樗婕暗氖蔷仃?向量(matrix-vector)乘法,而不是矩陣-矩陣(matrix-matrix)乘法;并且由于上一節(jié)提到的K-V緩存技術(shù),這一階段的計(jì)算強(qiáng)度大幅降低。

在生成(或解碼)階段,數(shù)學(xué)操作是一系列矩陣-向量乘法,其中M、K、N中的N始終為1,而上一輪生成的Token(對(duì)應(yīng)的向量)會(huì)作為單一輸入向量,進(jìn)入下一層的一組矩陣-向量乘法中。

加速矩陣-向量乘法可以在GPU上實(shí)現(xiàn),但由于其計(jì)算量相對(duì)較低,在GPU上反而容易受到內(nèi)存帶寬的限制,這也是為什么LLM的decode階段通??梢栽趦?nèi)存帶寬限制較小的CPU上執(zhí)行。

普遍認(rèn)為,在LLM的解碼階段,GPU較難發(fā)揮顯著優(yōu)勢(shì);然而,如果部署芯片(SoC)的主CPU負(fù)載較高,將解碼階段卸載到GPU仍然具有價(jià)值。

M: 128, K: 32, N: 1

M: 1024, K: 3072, N: 1

M: 3072, K: 3072, N: 1

M: 3072, K: 8192, N: 1

M: 32, K: 128, N: 1

M: 8192, K: 3072, N: 1

表2 - LLAMA-3.2-3B模型典型GEMV計(jì)算


結(jié)語(yǔ)

至此,我們關(guān)于在PowerVR GPU等邊緣設(shè)備上加速大型語(yǔ)言模型推理的兩篇博客系列已完成第一部分。我們介紹了“首次生成token時(shí)間”和“Token間延遲”的概念,以及它們?nèi)绾螒?yīng)用于大語(yǔ)言模型計(jì)算的兩個(gè)主要階段。

在第二部分中,我們將剖析Imagination公司為適配PowerVR GPU架構(gòu)對(duì)Llama.cpp應(yīng)用程序所做的代碼修改——涵蓋Vulkan接口與默認(rèn)OpenCL實(shí)現(xiàn)兩種方案。最后將重點(diǎn)分析我們自主優(yōu)化的OpenCL內(nèi)核,這些內(nèi)核專為釋放PowerVR GPU的高利用率而設(shè)計(jì),在采用F16量化權(quán)重格式時(shí),能顯著提升矩陣乘矩陣與矩陣-向量乘法運(yùn)算的性能表現(xiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39793

    瀏覽量

    301454
  • powervr
    +關(guān)注

    關(guān)注

    0

    文章

    99

    瀏覽量

    31539
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    346

    瀏覽量

    1332
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    對(duì)比解碼在LLM的應(yīng)用

    為了改進(jìn)LLM的推理能力,University of California聯(lián)合Meta AI實(shí)驗(yàn)室提出將Contrastive Decoding應(yīng)用于多種任務(wù)的LLM方法。實(shí)驗(yàn)表明,所提方法能有效改進(jìn)LLM的推理能力。讓我們走進(jìn)
    發(fā)表于 09-21 11:37 ?1236次閱讀
    對(duì)比解碼在<b class='flag-5'>LLM</b><b class='flag-5'>上</b>的應(yīng)用

    低比特量化技術(shù)如何幫助LLM提升性能

    針對(duì)大語(yǔ)言模型 (LLM) 在部署過程中的性能需求,低比特量化技術(shù)一直是優(yōu)化效果最佳的方案之一,本文將探討低比特量化技術(shù)如何幫助 LLM 提升性能,以及新版 OpenVINO 對(duì)于低比
    的頭像 發(fā)表于 12-08 15:26 ?2375次閱讀
    低比特量化技術(shù)如何幫助<b class='flag-5'>LLM</b>提升<b class='flag-5'>性能</b>

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫(kù),可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2194次閱讀

    無法在OVMS運(yùn)行來自Meta的大型語(yǔ)言模型 (LLM),為什么?

    無法在 OVMS 運(yùn)行來自 Meta 的大型語(yǔ)言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲(chǔ)庫(kù)運(yùn)行 llama_chat Python* Demo 時(shí)遇到錯(cuò)誤。
    發(fā)表于 03-05 08:07

    LLM性能的主要因素

    現(xiàn)在是2023年5月,截止目前,網(wǎng)絡(luò)已經(jīng)開源了眾多的LLM,如何用較低的成本,判斷LLM的基礎(chǔ)性能,選到適合自己任務(wù)的LLM,成為一個(gè)關(guān)鍵
    的頭像 發(fā)表于 05-22 15:26 ?2769次閱讀
    <b class='flag-5'>LLM</b><b class='flag-5'>性能</b>的主要因素

    深度解讀各種人工智能加速器和GPULLM性能特征

    在不同的硬件平臺(tái)上評(píng)估LLM對(duì)于理解傳統(tǒng)和非傳統(tǒng)體系結(jié)構(gòu)的能力和局限性至關(guān)重要。先前的工作已經(jīng)在超級(jí)計(jì)算機(jī)上研究了LLM,并使用傳統(tǒng)的深度學(xué)習(xí)基準(zhǔn)來提供對(duì)其能力的詳細(xì)評(píng)估與分析。
    發(fā)表于 10-25 11:49 ?1611次閱讀
    深度解讀各種人工智能<b class='flag-5'>加速</b>器和GPU<b class='flag-5'>上</b>的<b class='flag-5'>LLM</b><b class='flag-5'>性能</b>特征

    LLM推理加速新范式!推測(cè)解碼(Speculative Decoding)最新綜述

    這個(gè)問題隨著LLM規(guī)模的增大愈發(fā)嚴(yán)重。并且,如下左圖所示,目前LLM常用的自回歸解碼(autoregressive decoding)在每個(gè)解碼步只能生成一個(gè)token。這導(dǎo)致GPU計(jì)算資源利用率
    的頭像 發(fā)表于 01-29 15:54 ?6162次閱讀
    <b class='flag-5'>LLM</b>推理<b class='flag-5'>加速</b>新范式!推測(cè)解碼(Speculative Decoding)最新綜述

    100%在樹莓派上執(zhí)行的LLM項(xiàng)目

    ChatGPT的人性口語(yǔ)化回復(fù)相信許多人已體驗(yàn)過,也因此掀起一波大型語(yǔ)言模型(Large Language Model, LLM)熱潮,LLM即ChatGPT背后的主運(yùn)作技術(shù),但LLM運(yùn)作需要龐大運(yùn)算力,因此目前多是在云端(Cl
    的頭像 發(fā)表于 02-29 16:29 ?2513次閱讀
    100%在樹莓派上執(zhí)行的<b class='flag-5'>LLM</b>項(xiàng)目

    什么是LLMLLM的工作原理和結(jié)構(gòu)

    隨著人工智能技術(shù)的飛速發(fā)展,大型語(yǔ)言模型(Large Language Model,簡(jiǎn)稱LLM)逐漸成為自然語(yǔ)言處理(NLP)領(lǐng)域的研究熱點(diǎn)。LLM以其強(qiáng)大的文本生成、理解和推理能力,在文本
    的頭像 發(fā)表于 07-02 11:45 ?2w次閱讀

    LLM模型的應(yīng)用領(lǐng)域

    在本文中,我們將深入探討LLM(Large Language Model,大型語(yǔ)言模型)的應(yīng)用領(lǐng)域。LLM是一種基于深度學(xué)習(xí)的人工智能技術(shù),它能夠理解和生成自然語(yǔ)言文本。近年來,隨著計(jì)算能力的提高
    的頭像 發(fā)表于 07-09 09:52 ?2204次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語(yǔ)言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大模型推理加速關(guān)鍵技術(shù)的詳細(xì)探討,內(nèi)容將涵蓋模型壓縮、
    的頭像 發(fā)表于 07-24 11:38 ?3280次閱讀

    什么是LLM?LLM在自然語(yǔ)言處理中的應(yīng)用

    所未有的精度和效率處理和生成自然語(yǔ)言。 LLM的基本原理 LLM基于深度學(xué)習(xí)技術(shù),尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機(jī)制而聞名,這種機(jī)制使得模型能夠捕捉文本中的長(zhǎng)距離依賴關(guān)系。
    的頭像 發(fā)表于 11-19 15:32 ?4847次閱讀

    小白學(xué)大模型:構(gòu)建LLM的關(guān)鍵步驟

    隨著大規(guī)模語(yǔ)言模型(LLM)在性能、成本和應(yīng)用前景的快速發(fā)展,越來越多的團(tuán)隊(duì)開始探索如何自主訓(xùn)練LLM模型。然而,是否從零開始訓(xùn)練一個(gè)LLM
    的頭像 發(fā)表于 01-09 12:12 ?1799次閱讀
    小白學(xué)大模型:構(gòu)建<b class='flag-5'>LLM</b>的關(guān)鍵步驟

    LM Studio使用NVIDIA技術(shù)加速LLM性能

    隨著 AI 使用場(chǎng)景不斷擴(kuò)展(從文檔摘要到定制化軟件代理),開發(fā)者和技術(shù)愛好者正在尋求以更 快、更靈活的方式來運(yùn)行大語(yǔ)言模型(LLM)。
    的頭像 發(fā)表于 06-06 15:14 ?1186次閱讀
    LM Studio使用NVIDIA技術(shù)<b class='flag-5'>加速</b><b class='flag-5'>LLM</b><b class='flag-5'>性能</b>

    新品 | LLM-8850 Kit,高性能AI加速卡套件 DinMeter v1.1,1/32DIN標(biāo)準(zhǔn)嵌入式開發(fā)板

    LLM-8850KitLLM-8850Kit是一款面向邊緣AI與嵌入式計(jì)算場(chǎng)景的高性能AI加速卡套件,由LLM-8850CardAI加速卡與
    的頭像 發(fā)表于 01-30 16:11 ?1046次閱讀
    新品 | <b class='flag-5'>LLM</b>-8850 Kit,高<b class='flag-5'>性能</b>AI<b class='flag-5'>加速</b>卡套件 DinMeter v1.1,1/32DIN標(biāo)準(zhǔn)嵌入式開發(fā)板