免费A级毛片18禁网站APP,亚洲混乱视频一区

關(guān)鍵詞：V-SEEK、LLM Inference Optimization、RISC-V、SOPHON SG2042、llama.cpp、NUMA Optimization

V-SEEK: ACCELERATING LLM REASONING ON OPEN-HARDWARE SERVER-CLASS RISC-V PLATFORMS

近年來(lái)，大型語(yǔ)言模型（LLM）的指數(shù)級(jí)增長(zhǎng)依賴(lài)于基于 GPU 的系統(tǒng)。然而，CPU 正逐漸成為一種靈活且成本更低的替代方案，尤其是在面向推理（inference，即模型已完成訓(xùn)練、僅做預(yù)測(cè)的階段）和推理負(fù)載（reasoning workloads，指需要多步邏輯推導(dǎo)的預(yù)測(cè)任務(wù)）時(shí)。

RISC-V（一種開(kāi)源、免授權(quán)、可自由定制的指令集架構(gòu)）憑借開(kāi)放且與廠(chǎng)商無(wú)關(guān)的 ISA（Instruction Set Architecture，指令集架構(gòu)）在該領(lǐng)域迅速受到關(guān)注。

然而，面向 LLM 負(fù)載的 RISC-V 硬件及其配套軟件生態(tài)尚未完全成熟和流暢，原因是需要對(duì)特定領(lǐng)域進(jìn)行調(diào)優(yōu)。

本文旨在填補(bǔ)這一空白，聚焦于在 SOPHON SG2042 上優(yōu)化 LLM 推理；SG2042 是首款商用、具備向量處理能力的多核 RISC-V CPU。

在兩個(gè)新近為推理優(yōu)化的 SOTA（state-of-the-art，業(yè)界最佳）開(kāi)源 LLM——DeepSeek R1 Distill Llama 8B 與 DeepSeek R1 Distill QWEN 14B——上，我們實(shí)現(xiàn)了：

token 生成（token generation，逐詞生成）4.32 / 2.29 token/s
提示處理（prompt processing，又稱(chēng) prefill，把整段輸入一次性算完）6.54 / 3.68 token/s 的吞吐，相比我們的基線(xiàn)實(shí)現(xiàn)最高加速達(dá) 2.9× / 3.0×。

本文目錄

本文目錄
一、引言
二、研究方法
- 2.1 高性能 Kernel
- 2.2 編譯器工具鏈
- 2.3 模型映射優(yōu)化
三、實(shí)驗(yàn)結(jié)果與分析
- Kernel Scaling
- 不同編譯器影響
- NUMA 策略影響
- 性能小結(jié)
參考文獻(xiàn)

一、引言

超大規(guī)模云服務(wù)商（hyperscalers，例如 AWS）與 AI 部署公司（例如 OpenAI）通常使用 GPU 集群或?qū)Ｓ眉铀倨鳎ㄈ?TPU，Tensor Processing Unit）來(lái)加速 LLM 工作負(fù)載。然而，多核 CPU 加速 LLM 也已得到近期探索[2]，因?yàn)樗?span style="color:rgb(122,79,214);">硬件成本更低的同時(shí)提供了更高的靈活性，尤其適用于本地部署（on-premise）和低延遲邊緣服務(wù)器（edge servers）。

現(xiàn)有研究主要針對(duì) x86 和 ARM，而基于靈活且開(kāi)源的 RISC-V 指令集架構(gòu)的多核芯片則相對(duì)未被充分探索 [1]。

為了填補(bǔ)這一空白，本工作將業(yè)界先進(jìn)的 LLM 推理框架 llama.cpp [7] 適配并優(yōu)化到首款商用的、通用型多核 RISC-V 平臺(tái)——SOPHON SG2042[1]。

在兩個(gè)新近開(kāi)源、專(zhuān)為推理優(yōu)化的模型（DeepSeek R1 Distill Llama 8B / QWEN 14B）上，我們相比基線(xiàn) llama.cpp 實(shí)現(xiàn)最高實(shí)現(xiàn)了 token 生成 3.0×、提示處理 2.8× 的加速（在 4-bit 量化精度下），分別達(dá)到 4.32 / 2.29 與 6.54 / 3.68 token/s 的吞吐。

在 vanilla Llama 7B 上，我們實(shí)現(xiàn) token 生成 6.63 token/s、提示處理 13.07 token/s，即相比基線(xiàn)實(shí)現(xiàn)加速 4.3× / 5.5×，并較 SG2042 上已報(bào)道的最佳結(jié)果 [8] 提升 1.65×，同時(shí)與成熟的 x86 CPU 推理性能具有競(jìng)爭(zhēng)力。

二、研究方法

為了探索在 RISC-V 服務(wù)器級(jí)平臺(tái)上優(yōu)化 LLM 推理的可用選項(xiàng)，我們選定了 MILK-V Pioneer 作為目標(biāo)平臺(tái)，其核心為 64 核 SOPHON SG2042 CPU，并配備 128 GB DRAM 內(nèi)存。平臺(tái)框圖見(jiàn)圖 1-center。

我們識(shí)別出可以從三個(gè)方向著手解決問(wèn)題的路徑，均在軟件層面，靈感來(lái)自其他架構(gòu)上的相關(guān)工作 [5,6,3]：

2.1 高性能 Kernel

針對(duì)關(guān)鍵 LLM 層開(kāi)發(fā)經(jīng)過(guò)優(yōu)化的、若支持則已量化的計(jì)算內(nèi)核（kernels，指一段專(zhuān)門(mén)用于矩陣運(yùn)算的底層代碼），充分利用硬件資源，同時(shí)兼顧其內(nèi)存結(jié)構(gòu)、流水線(xiàn)（pipeline，指令執(zhí)行順序）和向量化能力。

圖 1-right 給出了我們提出的內(nèi)核的偽代碼：

首先，將 fp32（32 位浮點(diǎn)）輸入（向量或瘦矩陣）量化為 int8（8 位整數(shù)）；
接著，執(zhí)行兩層嵌套循環(huán)以完成 GEMV（General Matrix-Vector multiplication，通用矩陣-向量乘法）操作，其中外層循環(huán)按步長(zhǎng) 2 遍歷輸入矩陣 A 的行，內(nèi)層循環(huán)按步長(zhǎng) 32 遍歷其列。
列循環(huán)結(jié)束后，進(jìn)行反量化（de-quantization，把整數(shù)還原回浮點(diǎn)數(shù)），結(jié)合 A 塊和 B 的縮放因子（scale factors）以生成輸出的 fp32 值。

這一新內(nèi)核既利用了平臺(tái)的向量單元，又優(yōu)化了數(shù)據(jù)局部性（data locality，數(shù)據(jù)盡量靠近計(jì)算單元，減少訪(fǎng)存延遲）。

2.2 編譯器工具鏈

選擇合適的編譯工具鏈，支持先進(jìn)的優(yōu)化 Pass（optimization passes，編譯器內(nèi)部對(duì)代碼進(jìn)行變換以提升性能的階段）并能利用現(xiàn)有 ISA 擴(kuò)展。

在我們的場(chǎng)景下，內(nèi)核使用 Xuantie 分支的 GCC 10.4 編譯，因?yàn)?strong>只有該版本支持 Sophon SG2042 的硬件向量單元。而對(duì)于整個(gè) llama.cpp 框架，我們考慮兩種替代方案：GCC 13.2 和 Clang 19（Xuantie GCC 10.4 與最新版 llama.cpp 不兼容）。

2.3 模型映射優(yōu)化

優(yōu)化模型映射（model mapping，即把模型權(quán)重和計(jì)算任務(wù)分配到硬件上的過(guò)程），特別是頁(yè)面/線(xiàn)程分配，解決這類(lèi)系統(tǒng)復(fù)雜的內(nèi)存層級(jí)結(jié)構(gòu)。具體而言，我們針對(duì)非一致內(nèi)存訪(fǎng)問(wèn)（NUMA，Non-uniform Memory Access，指多路服務(wù)器中 CPU 訪(fǎng)問(wèn)遠(yuǎn)/近內(nèi)存速度不同的架構(gòu)）延遲，探索了不同 numactl 選項(xiàng)組合的 4 種策略：

NUMA Balancing 開(kāi)啟，其余選項(xiàng)關(guān)閉；
所有選項(xiàng)關(guān)閉；
Balancing 關(guān)閉 + Core Binding（核心綁定）開(kāi)啟；
Balancing 關(guān)閉 + Memory Interleaving（內(nèi)存交錯(cuò)）開(kāi)啟。

我們將上述優(yōu)化應(yīng)用于 llama.cpp [7] 框架，并在 3 個(gè)規(guī)模遞增的開(kāi)源 LLM 上進(jìn)行測(cè)試，均采用 Q4_0 量化（vanilla Llama 7B，DeepSeek R1 Distill Llama 8B，DeepSeek R1 Distill QWEN 14B，分別簡(jiǎn)稱(chēng) 7B、8B 和 14B）。

三、實(shí)驗(yàn)結(jié)果與分析

為展示優(yōu)化效果，我們用用戶(hù)提示 “Explain to me what is RISC-V, what are its principles and why it is so cool?”（共 22 個(gè) token）對(duì)三款 LLM 執(zhí)行了預(yù)填充（prefill），同時(shí)對(duì) token 生成性能取 256 個(gè)測(cè)試生成 token 的平均值。

Kernel Scaling

圖 2 給出了多個(gè)基線(xiàn)內(nèi)核（llama.cpp 自帶的 GGML 與 OpenBLAS 默認(rèn)實(shí)現(xiàn)）與我們所提出內(nèi)核的單線(xiàn)程可擴(kuò)展性對(duì)比。

與最佳基線(xiàn)相比，我們平均將 GOPS（Giga Operations Per Second，十億次運(yùn)算每秒）提升 38.3%，在矩陣規(guī)模為 4096 時(shí)峰值提升達(dá) 56.3%。

不同編譯器影響

圖 3 評(píng)估了使用 Clang 或 GCC 編譯時(shí) DeepSeek 8B 模型的推理性能，均使用我們提出的內(nèi)核。

Clang 19 持續(xù)優(yōu)于 GCC 13.2，在 token 生成上平均性能提升 34%，在預(yù)填充上提升 25%。關(guān)鍵原因在于 Clang 對(duì) ISA 擴(kuò)展的支持以及更先進(jìn)的編譯優(yōu)化（例如更激進(jìn)的內(nèi)聯(lián)和循環(huán)展開(kāi)）。無(wú)論使用哪種編譯器，當(dāng)線(xiàn)程數(shù)超過(guò) 32 時(shí)都會(huì)出現(xiàn)性能下降。該行為歸因于默認(rèn)的 NUMA balancing 策略，它對(duì) LLM 推理這種可預(yù)測(cè)負(fù)載并不理想，導(dǎo)致大量線(xiàn)程與內(nèi)存頁(yè)遷移。

NUMA 策略影響

事實(shí)上，在關(guān)閉 NUMA balancing 并開(kāi)啟內(nèi)存交錯(cuò)后，如預(yù)期所示，我們?cè)?64 線(xiàn)程下取得了 token 生成 4.32 token/s 與預(yù)填充 6.54 token/s 的最佳結(jié)果，這得益于內(nèi)存頁(yè)遷移的大幅減少。

性能小結(jié)

得益于我們的優(yōu)化，7B、8B 和 14B 這三款 LLM分別達(dá)到了 13.07 / 6.54 / 3.68 token/s 的最大吞吐，相比基線(xiàn) llama.cpp 最高提升 5.5× / 2.9× / 3×。

與 SG2042 上已報(bào)道的最佳結(jié)果 [8] 相比，我們?cè)?span style="color:rgb(122,79,214);">Llama 7B 上的峰值吞吐提升 1.65×。
與類(lèi)似且更成熟的 x86 平臺(tái)——64 核 AMD EPYC 7742——相比，我們將能效提升 1.2×（55 token/s/mW 對(duì) 45 token/s/mW）。

參考文獻(xiàn)

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴