91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

RISC-V CPU 上 3 倍推理加速!V-SEEK:在 SOPHON SG2042 上加速 14B LLM

算能開(kāi)發(fā)者社區(qū) ? 2025-08-05 14:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

關(guān)鍵詞:V-SEEK、LLM Inference Optimization、RISC-V、SOPHON SG2042、llama.cpp、NUMA Optimization

aef34156-71c1-11f0-9080-92fbcf53809c.png
  • V-SEEK: ACCELERATING LLM REASONING ON OPEN-HARDWARE SERVER-CLASS RISC-V PLATFORMS

近年來(lái),大型語(yǔ)言模型(LLM)的指數(shù)級(jí)增長(zhǎng)依賴(lài)于基于 GPU 的系統(tǒng)。然而,CPU 正逐漸成為一種靈活且成本更低的替代方案,尤其是在面向推理(inference,即模型已完成訓(xùn)練、僅做預(yù)測(cè)的階段)和推理負(fù)載(reasoning workloads,指需要多步邏輯推導(dǎo)的預(yù)測(cè)任務(wù))時(shí)。

RISC-V(一種開(kāi)源、免授權(quán)、可自由定制的指令集架構(gòu))憑借開(kāi)放且與廠(chǎng)商無(wú)關(guān)的 ISA(Instruction Set Architecture,指令集架構(gòu))在該領(lǐng)域迅速受到關(guān)注。

然而,面向 LLM 負(fù)載的 RISC-V 硬件及其配套軟件生態(tài)未完全成熟和流暢,原因是需要對(duì)特定領(lǐng)域進(jìn)行調(diào)優(yōu)。

本文旨在填補(bǔ)這一空白,聚焦于在 SOPHON SG2042 上優(yōu)化 LLM 推理;SG2042 是首款商用、具備向量處理能力的多核 RISC-V CPU。

在兩個(gè)新近為推理優(yōu)化的 SOTA(state-of-the-art,業(yè)界最佳)開(kāi)源 LLM——DeepSeek R1 Distill Llama 8B 與 DeepSeek R1 Distill QWEN 14B——上,我們實(shí)現(xiàn)了:

  • token 生成(token generation,逐詞生成)4.32 / 2.29 token/s
  • 提示處理(prompt processing,又稱(chēng) prefill,把整段輸入一次性算完)6.54 / 3.68 token/s 的吞吐,相比我們的基線(xiàn)實(shí)現(xiàn)最高加速達(dá) 2.9× / 3.0×。

本文目錄

  • 本文目錄
  • 一、引言
  • 二、研究方法
    • 2.1 高性能 Kernel
    • 2.2 編譯器工具鏈
    • 2.3 模型映射優(yōu)化
  • 三、實(shí)驗(yàn)結(jié)果與分析
    • Kernel Scaling
    • 不同編譯器影響
    • NUMA 策略影響
    • 性能小結(jié)
  • 參考文獻(xiàn)

一、引言

超大規(guī)模云服務(wù)商(hyperscalers,例如 AWS)與 AI 部署公司(例如 OpenAI)通常使用 GPU 集群或?qū)S眉铀倨鳎ㄈ?TPU,Tensor Processing Unit)來(lái)加速 LLM 工作負(fù)載。然而,多核 CPU 加速 LLM 也已得到近期探索[2],因?yàn)樗?span style="color:rgb(122,79,214);">硬件成本更低的同時(shí)提供了更高的靈活性,尤其適用于本地部署(on-premise)和低延遲邊緣服務(wù)器(edge servers)。

現(xiàn)有研究主要針對(duì) x86 和 ARM,而基于靈活且開(kāi)源的 RISC-V 指令集架構(gòu)的多核芯片則相對(duì)未被充分探索 [1]。

為了填補(bǔ)這一空白,本工作將業(yè)界先進(jìn)的 LLM 推理框架 llama.cpp [7] 適配并優(yōu)化到首款商用的、通用型多核 RISC-V 平臺(tái)——SOPHON SG2042[1]。

在兩個(gè)新近開(kāi)源、專(zhuān)為推理優(yōu)化的模型(DeepSeek R1 Distill Llama 8B / QWEN 14B)上,我們相比基線(xiàn) llama.cpp 實(shí)現(xiàn)最高實(shí)現(xiàn)了 token 生成 3.0×、提示處理 2.8× 的加速(在 4-bit 量化精度下),分別達(dá)到 4.32 / 2.29 與 6.54 / 3.68 token/s 的吞吐。

在 vanilla Llama 7B 上,我們實(shí)現(xiàn) token 生成 6.63 token/s、提示處理 13.07 token/s,即相比基線(xiàn)實(shí)現(xiàn)加速 4.3× / 5.5×,并較 SG2042 上已報(bào)道的最佳結(jié)果 [8] 提升 1.65×,同時(shí)與成熟的 x86 CPU 推理性能具有競(jìng)爭(zhēng)力

二、研究方法

為了探索在 RISC-V 服務(wù)器級(jí)平臺(tái)上優(yōu)化 LLM 推理的可用選項(xiàng),我們選定了 MILK-V Pioneer 作為目標(biāo)平臺(tái),其核心為 64 核 SOPHON SG2042 CPU,并配備 128 GB DRAM 內(nèi)存。平臺(tái)框圖見(jiàn)圖 1-center。

af47ab06-71c1-11f0-9080-92fbcf53809c.png

我們識(shí)別出可以從三個(gè)方向著手解決問(wèn)題的路徑,均在軟件層面,靈感來(lái)自其他架構(gòu)上的相關(guān)工作 [5,6,3]:

2.1 高性能 Kernel

針對(duì)關(guān)鍵 LLM 層開(kāi)發(fā)經(jīng)過(guò)優(yōu)化的、若支持則已量化的計(jì)算內(nèi)核(kernels,指一段專(zhuān)門(mén)用于矩陣運(yùn)算的底層代碼),充分利用硬件資源,同時(shí)兼顧其內(nèi)存結(jié)構(gòu)、流水線(xiàn)(pipeline,指令執(zhí)行順序)和向量化能力。

af47ab06-71c1-11f0-9080-92fbcf53809c.png

圖 1-right 給出了我們提出的內(nèi)核的偽代碼:

  • 首先,將 fp32(32 位浮點(diǎn))輸入(向量或瘦矩陣)量化為 int8(8 位整數(shù));
  • 接著,執(zhí)行兩層嵌套循環(huán)以完成 GEMV(General Matrix-Vector multiplication,通用矩陣-向量乘法)操作,其中外層循環(huán)按步長(zhǎng) 2 遍歷輸入矩陣 A 的行,內(nèi)層循環(huán)按步長(zhǎng) 32 遍歷其列。
  • 列循環(huán)結(jié)束后,進(jìn)行反量化(de-quantization,把整數(shù)還原回浮點(diǎn)數(shù)),結(jié)合 A 塊和 B 的縮放因子(scale factors)以生成輸出的 fp32 值。

這一新內(nèi)核既利用了平臺(tái)的向量單元,又優(yōu)化了數(shù)據(jù)局部性(data locality,數(shù)據(jù)盡量靠近計(jì)算單元,減少訪(fǎng)存延遲)。

2.2 編譯器工具鏈

選擇合適的編譯工具鏈,支持先進(jìn)的優(yōu)化 Pass(optimization passes,編譯器內(nèi)部對(duì)代碼進(jìn)行變換以提升性能的階段)并能利用現(xiàn)有 ISA 擴(kuò)展。

我們的場(chǎng)景下,內(nèi)核使用 Xuantie 分支的 GCC 10.4 編譯,因?yàn)?strong>只有該版本支持 Sophon SG2042 的硬件向量單元。而對(duì)于整個(gè) llama.cpp 框架,我們考慮兩種替代方案:GCC 13.2 和 Clang 19(Xuantie GCC 10.4 與最新版 llama.cpp 不兼容)。

2.3 模型映射優(yōu)化

優(yōu)化模型映射(model mapping,即把模型權(quán)重和計(jì)算任務(wù)分配到硬件上的過(guò)程),特別是頁(yè)面/線(xiàn)程分配,解決這類(lèi)系統(tǒng)復(fù)雜的內(nèi)存層級(jí)結(jié)構(gòu)。具體而言,我們針對(duì)非一致內(nèi)存訪(fǎng)問(wèn)(NUMA,Non-uniform Memory Access,指多路服務(wù)器中 CPU 訪(fǎng)問(wèn)遠(yuǎn)/近內(nèi)存速度不同的架構(gòu))延遲,探索了不同 numactl 選項(xiàng)組合的 4 種策略

  • NUMA Balancing 開(kāi)啟,其余選項(xiàng)關(guān)閉;
  • 所有選項(xiàng)關(guān)閉;
  • Balancing 關(guān)閉 + Core Binding(核心綁定)開(kāi)啟;
  • Balancing 關(guān)閉 + Memory Interleaving(內(nèi)存交錯(cuò))開(kāi)啟。

我們將上述優(yōu)化應(yīng)用于 llama.cpp [7] 框架,并在 3 個(gè)規(guī)模遞增的開(kāi)源 LLM 上進(jìn)行測(cè)試,均采用 Q4_0 量化(vanilla Llama 7B,DeepSeek R1 Distill Llama 8B,DeepSeek R1 Distill QWEN 14B,分別簡(jiǎn)稱(chēng) 7B、8B 和 14B)。

三、實(shí)驗(yàn)結(jié)果與分析

為展示優(yōu)化效果,我們用用戶(hù)提示 “Explain to me what is RISC-V, what are its principles and why it is so cool?”(共 22 個(gè) token)對(duì)三款 LLM 執(zhí)行了預(yù)填充(prefill),同時(shí)對(duì) token 生成性能取 256 個(gè)測(cè)試生成 token 的平均值。

Kernel Scaling

圖 2 給出了多個(gè)基線(xiàn)內(nèi)核(llama.cpp 自帶的 GGML 與 OpenBLAS 默認(rèn)實(shí)現(xiàn))與我們所提出內(nèi)核的單線(xiàn)程可擴(kuò)展性對(duì)比。

af6e59cc-71c1-11f0-9080-92fbcf53809c.png

與最佳基線(xiàn)相比,我們平均將 GOPS(Giga Operations Per Second,十億次運(yùn)算每秒)提升 38.3%,在矩陣規(guī)模為 4096 時(shí)峰值提升達(dá) 56.3%。

不同編譯器影響

圖 3 評(píng)估了使用 Clang 或 GCC 編譯時(shí) DeepSeek 8B 模型的推理性能,均使用我們提出的內(nèi)核。

af84f5f6-71c1-11f0-9080-92fbcf53809c.png

Clang 19 持續(xù)優(yōu)于 GCC 13.2,在 token 生成上平均性能提升 34%,在預(yù)填充上提升 25%。關(guān)鍵原因在于 Clang 對(duì) ISA 擴(kuò)展的支持以及更先進(jìn)的編譯優(yōu)化(例如更激進(jìn)的內(nèi)聯(lián)和循環(huán)展開(kāi))。無(wú)論使用哪種編譯器,當(dāng)線(xiàn)程數(shù)超過(guò) 32 時(shí)都會(huì)出現(xiàn)性能下降。該行為歸因于默認(rèn)的 NUMA balancing 策略,它對(duì) LLM 推理這種可預(yù)測(cè)負(fù)載并不理想,導(dǎo)致大量線(xiàn)程與內(nèi)存頁(yè)遷移。

NUMA 策略影響

事實(shí)上,在關(guān)閉 NUMA balancing 并開(kāi)啟內(nèi)存交錯(cuò)后,如預(yù)期所示,我們?cè)?64 線(xiàn)程下取得了 token 生成 4.32 token/s 與預(yù)填充 6.54 token/s 的最佳結(jié)果,這得益于內(nèi)存頁(yè)遷移的大幅減少。

af9b8500-71c1-11f0-9080-92fbcf53809c.png

性能小結(jié)

得益于我們的優(yōu)化,7B、8B 和 14B 這三款 LLM分別達(dá)到了 13.07 / 6.54 / 3.68 token/s 的最大吞吐,相比基線(xiàn) llama.cpp 最高提升 5.5× / 2.9× / 3×。

  • 與 SG2042 上已報(bào)道的最佳結(jié)果 [8] 相比,我們?cè)?span style="color:rgb(122,79,214);">Llama 7B 上的峰值吞吐提升 1.65×。
  • 與類(lèi)似且更成熟的 x86 平臺(tái)——64 核 AMD EPYC 7742——相比,我們將能效提升 1.2×(55 token/s/mW 對(duì) 45 token/s/mW)

參考文獻(xiàn)

afb6b1c2-71c1-11f0-9080-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11275

    瀏覽量

    224913
  • RISC-V
    +關(guān)注

    關(guān)注

    48

    文章

    2883

    瀏覽量

    52923
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    重磅合作!Quintauris 聯(lián)手 SiFive,加速 RISC-V 嵌入式與 AI 領(lǐng)域落地

    據(jù)科技區(qū)角報(bào)道半導(dǎo)體解決方案提供商 Quintauris 最近宣布和 RISC-V 處理器 IP 領(lǐng)域的頭部廠(chǎng)商 SiFive 達(dá)成戰(zhàn)略合作,目標(biāo)直接瞄準(zhǔn)加速 RISC-V 嵌入式、
    發(fā)表于 12-18 12:01

    探索RISC-V機(jī)器人領(lǐng)域的潛力

    探索RISC-V機(jī)器人領(lǐng)域的潛力 測(cè)評(píng)人:洄溯 測(cè)評(píng)時(shí)間: 2025年11月 測(cè)評(píng)對(duì)象: MUSE Pi Pro開(kāi)發(fā)板(基于進(jìn)迭時(shí)空K1系列高性能RISC-V CPU) 一、
    發(fā)表于 12-03 14:40

    【CIE全國(guó)RISC-V創(chuàng)新應(yīng)用大賽】基于 K1 AI CPU 的大模型部署落地

    量化” 策略。我們必須使用 Q2_K (2-bit) 量化格式,將模型體積壓縮到 5.5GB 左右,從而在 8GB 內(nèi)存給 KV Cache(上下文)留出空間。 以下是按照官方工具鏈針對(duì) 14B 模型定制
    發(fā)表于 11-27 14:43

    如何自己設(shè)計(jì)一個(gè)基于RISC-V的SoC架構(gòu),最后可以FPGA跑起來(lái)?

    如何自己設(shè)計(jì)一個(gè)基于RISC-V的SoC架構(gòu),最后可以FPGA跑起來(lái)
    發(fā)表于 11-11 08:03

    RISC-V B擴(kuò)展介紹及實(shí)現(xiàn)

    B擴(kuò)展簡(jiǎn)介 RISCV B擴(kuò)展指的是RISCV用于位運(yùn)算加速的一個(gè)擴(kuò)展指令集,目的是使用一條指令實(shí)現(xiàn)原本需要2-3條指令才能實(shí)現(xiàn)的位操作指令。具體包含內(nèi)容如下:
    發(fā)表于 10-21 13:01

    RISC-V HPC新標(biāo)桿Sophon SG2044深度評(píng)估:支持RVV v1.0適配GCC 15.2,多核性能潛力巨大!

    RISC-V架構(gòu)的普及浪潮中,嵌入式領(lǐng)域的成功早已眾人皆知,但高性能計(jì)算(HPC)始終是其難以突破的“高地”。算能SOPHONSG2044的出現(xiàn)打破了僵局。國(guó)際權(quán)威技術(shù)媒體發(fā)布的深度評(píng)測(cè)《IsRISC-VreadyforHighPerformanceComputing?
    的頭像 發(fā)表于 10-16 13:23 ?1438次閱讀
    <b class='flag-5'>RISC-V</b> HPC新標(biāo)桿<b class='flag-5'>Sophon</b> <b class='flag-5'>SG</b>2044深度評(píng)估:支持RVV <b class='flag-5'>v</b>1.0適配GCC 15.2,多核性能潛力巨大!

    RISC-V芯片出貨超百億顆!四大廠(chǎng)商重磅產(chǎn)品來(lái)襲,加速邊緣AI終端落地

    RISC-V基金會(huì)宣布,2024年基于RISC-V指令集的芯片出貨量超過(guò)百億顆,其中30%用于AI加速場(chǎng)景。本次盛會(huì),知合計(jì)算、全志科技、博流智能、凌思微等廠(chǎng)商都攜最新RISC-V內(nèi)核
    的頭像 發(fā)表于 07-22 08:58 ?6860次閱讀
    <b class='flag-5'>RISC-V</b>芯片出貨超百億顆!四大廠(chǎng)商重磅產(chǎn)品來(lái)襲,<b class='flag-5'>加速</b>邊緣AI終端落地

    大咖論道:以架構(gòu)創(chuàng)新、生態(tài)繁榮,加速RISC-V產(chǎn)業(yè)落地

    電子發(fā)燒友網(wǎng)黃晶晶報(bào)道,7月17日舉行的2025 RISC-V中國(guó)峰會(huì)主論壇,十多位業(yè)界專(zhuān)家就RISC-V產(chǎn)業(yè)落地的機(jī)遇和挑戰(zhàn)的圓桌話(huà)題進(jìn)行了精彩的觀點(diǎn)碰撞與趨勢(shì)分析。 ? ? 探
    的頭像 發(fā)表于 07-20 05:49 ?6058次閱讀
    大咖論道:以架構(gòu)創(chuàng)新、生態(tài)繁榮,<b class='flag-5'>加速</b><b class='flag-5'>RISC-V</b>產(chǎn)業(yè)落地

    “核心技術(shù)突破+關(guān)鍵應(yīng)用支撐”,賽昉加速RISC-V生態(tài)突圍

    核心技術(shù)護(hù)城河1.首款適配RISC-V核的國(guó)產(chǎn)一致性NoCIP——StarNoC-700高性能計(jì)算分論壇,賽昉科技IP產(chǎn)品線(xiàn)總經(jīng)理周杰宣布,公司自主研發(fā)的大規(guī)模一
    的頭像 發(fā)表于 07-19 17:03 ?1444次閱讀
    “核心技術(shù)突破+關(guān)鍵應(yīng)用支撐”,賽昉<b class='flag-5'>加速</b><b class='flag-5'>RISC-V</b>生態(tài)突圍

    英偉達(dá):CUDA 已經(jīng)開(kāi)始移植到 RISC-V 架構(gòu)

    7 月 17 日,第五屆(2025)RISC-V 中國(guó)峰會(huì)主論壇,英偉達(dá)副總裁 Frans Sijstermanns 分享了題為《英偉達(dá)計(jì)算平臺(tái)實(shí)現(xiàn)
    發(fā)表于 07-17 16:30 ?3954次閱讀

    RISC-V 的平臺(tái)思維和生態(tài)思維

    Doorn 認(rèn)為,RISC-V 擴(kuò)展要擁抱 “平臺(tái)思維” 和 “生態(tài)思維”。 ? 7 月 17 日舉辦的第五屆(2025)RISC-V 中國(guó)峰會(huì)主論壇,Leendert van
    發(fā)表于 07-17 14:04 ?4180次閱讀

    RISC-V International CEO:RISC-V 應(yīng)用全面開(kāi)花,2031 年滲透率將達(dá) 25.7%

    7 月 16 日~19 日,第五屆(2025)RISC-V 中國(guó)峰會(huì)在上海張江科學(xué)會(huì)堂拉開(kāi)帷幕。峰會(huì)設(shè)置 1 場(chǎng)主論壇、8 大垂直領(lǐng)域分論壇、多場(chǎng)研習(xí)會(huì)及多項(xiàng)同期活動(dòng)。 7 月 17 日的主論壇
    發(fā)表于 07-17 10:28 ?3693次閱讀
    <b class='flag-5'>RISC-V</b> International CEO:<b class='flag-5'>RISC-V</b> 應(yīng)用全面開(kāi)花,2031 年滲透率將達(dá) 25.7%

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專(zhuān)為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)
    的頭像 發(fā)表于 07-04 14:38 ?2174次閱讀

    大象機(jī)器人攜手進(jìn)迭時(shí)空推出 RISC-V 全棧開(kāi)源六軸機(jī)械臂產(chǎn)品

    、lightrack)等模型。倉(cāng)庫(kù)將持續(xù)更新支持最前沿的模型應(yīng)用,滿(mǎn)足各種復(fù)雜 AI任務(wù)。 AI智慧零售套件 通過(guò)CPU融合AI的創(chuàng)新設(shè)計(jì),“myCobot 280 RISC-V”首次將大模型推理與機(jī)械臂控制
    發(fā)表于 04-25 17:59

    芯來(lái)科技攜手芯芒科技發(fā)布RISC-V CPU系統(tǒng)仿真平臺(tái)

    專(zhuān)業(yè)RISC-V處理器IP及解決方案公司芯來(lái)科技與杭州芯芒科技深入合作,共同研發(fā)推出芯來(lái)全系列RISC-V CPU系統(tǒng)仿真平臺(tái)。幫助下游SoC和產(chǎn)品開(kāi)發(fā)團(tuán)隊(duì)基于該仿真平臺(tái)快速構(gòu)建從芯片核心架構(gòu)、整
    的頭像 發(fā)表于 03-19 14:36 ?1719次閱讀