91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

源2.0-M32大模型發(fā)布量化版 運(yùn)行顯存僅需23GB 性能可媲美LLaMA3

全球TMT ? 來源:全球TMT ? 作者:全球TMT ? 2024-08-25 22:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

北京2024年8月23日/美通社/ -- 近日,浪潮信息發(fā)布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數(shù)的LLaMA3開源大模型。4bit量化版推理運(yùn)行顯存僅需23.27GB,處理每token所需算力約為1.9 GFLOPs,算力消耗僅為同等當(dāng)量大模型LLaMA3-70B的1/80。而LLaMA3-70B運(yùn)行顯存為160GB,所需算力為140GFLOPs。

源2.0-M32量化版是"源"大模型團(tuán)隊為進(jìn)一步提高模算效率,降低大模型部署運(yùn)行的計算資源要求而推出的版本,通過采用領(lǐng)先的量化技術(shù),將原模型精度量化至int4和int8級別,并保持模型性能基本不變。源2.0-M32量化版提高了模型部署加載速度和多線程推理效率,在不同硬件和軟件環(huán)境中均能高效運(yùn)行,降低了模型移植和部署門檻,讓用戶使用更少的計算資源,就能獲取源2.0-M32大模型的強(qiáng)大能力。

源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其創(chuàng)新性地提出和采用了"基于注意力機(jī)制的門控網(wǎng)絡(luò)"技術(shù),構(gòu)建包含32個專家(Expert)的混合專家模型(MoE),模型運(yùn)行時激活參數(shù)為37億,在業(yè)界主流基準(zhǔn)評測中性能全面對標(biāo)700億參數(shù)的LLaMA3開源大模型,大幅提升了模型算力效率。

模型量化(Model Quantization)是優(yōu)化大模型推理的一種主流技術(shù),它顯著減少了模型的內(nèi)存占用和計算資源消耗,從而加速推理過程。然而,模型量化可能會影響模型的性能。如何在壓縮模型的同時維持其精度,是量化技術(shù)面臨的核心挑戰(zhàn)。

源2.0-M32大模型研發(fā)團(tuán)隊深入分析當(dāng)前主流的量化方案,綜合評估模型壓縮效果和精度損失表現(xiàn),最終采用了GPTQ量化方法,并采用AutoGPTQ作為量化框架。為了確保模型精度最大化,一方面定制化適配了適合源2.0-M32結(jié)構(gòu)的算子,提高了模型的部署加載速度和多線程推理效率,實現(xiàn)高并發(fā)推理;另一方面對需要量化的中間層(inter_layers)進(jìn)行了嚴(yán)格評估和篩選,確定了最佳的量化層。從而成功將模型精度量化至int4和int8級別,在模型精度幾乎無損的前提下,提升模型壓縮效果、增加推理吞吐量和降低計算成本,使其更易于部署到移動設(shè)備和邊緣設(shè)備上。

評測結(jié)果顯示,源2.0-M32量化版在多個業(yè)界主流的評測任務(wù)中性能表現(xiàn)突出,特別是在MATH(數(shù)學(xué)競賽)、ARC-C(科學(xué)推理)任務(wù)中,比肩擁有700億參數(shù)的LLaMA3大模型。

wKgaombLOmGAMfOeAACBJMP6AFU808.jpg


總之,源2.0-M32大模型量化版在保持推理性能的前提下,顯著降低了計算資源消耗和內(nèi)存占用,其采用的GPTQ量化方法通過精細(xì)調(diào)整,成功將模型適配至int4和int8精度級別。通過定制化算子優(yōu)化,源2.0-M32量化版實現(xiàn)了模型結(jié)構(gòu)的深度適配和性能的顯著提升,確保在不同硬件和軟件環(huán)境中均能高效運(yùn)行。未來,隨著量化技術(shù)的進(jìn)一步優(yōu)化和應(yīng)用場景的拓展,源2.0-M32量化版有望在移動設(shè)備和邊緣計算等領(lǐng)域發(fā)揮更廣泛的作用,為用戶提供更高效的智能服務(wù)。

源2.0-M32量化版已開源,下載鏈接如下:

Hugging Face平臺下載鏈接:

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope平臺下載鏈接:

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8


審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4203

    瀏覽量

    46119
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1527

    瀏覽量

    16740
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3647

    瀏覽量

    5176
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    登臨科技KS系列GPU產(chǎn)品全面適配MiniMax M2.5模型

    對MiniMax M2.5模型的高效支持,更依托KS38/ KS58云端推理卡——單卡最高配備128GB顯存,推出
    的頭像 發(fā)表于 03-04 17:49 ?838次閱讀
    登臨科技KS系列GPU產(chǎn)品全面適配MiniMax <b class='flag-5'>M</b>2.5<b class='flag-5'>模型</b>

    阿里巴巴開源全新一代大模型千問Qwen3.5-Plus

    千問3.5實現(xiàn)了底層模型架構(gòu)的全面革新,此次發(fā)布的Qwen3.5-Plus版本總參數(shù)為3970億,激活170億,以小勝大,性能超過萬億參數(shù)的Qwen
    的頭像 發(fā)表于 02-26 15:40 ?738次閱讀
    阿里巴巴開源全新一代大<b class='flag-5'>模型</b>千問Qwen3.5-Plus

    如何在Arm Neoverse N2平臺上提升llama.cpp擴(kuò)展性能

    跨 NUMA 內(nèi)存訪問可能會限制 llama.cpp 在 Arm Neoverse 平臺上的擴(kuò)展能力。本文將為你詳細(xì)分析這一問題,并通過引入原型驗證補(bǔ)丁來加以解決。測試結(jié)果表明,在基于 Neoverse N2 平臺的系統(tǒng)上運(yùn)行 llam
    的頭像 發(fā)表于 02-11 10:06 ?165次閱讀

    【CIE全國RISC-V創(chuàng)新應(yīng)用大賽】基于 K1 AI CPU 的大模型部署落地

    8GB 物理內(nèi)存 (且操作系統(tǒng)還要占用約 500MB+)。 結(jié)論 :如果直接照搬官方文檔下載 Q4 模型, 100% 會因為內(nèi)存不足(OOM)而無法運(yùn)行 。 為了滿足賽題要求,必須采用 “極限
    發(fā)表于 11-27 14:43

    大規(guī)模專家并行模型在TensorRT-LLM的設(shè)計

    DeepSeek-V3 / R1 等模型采用大規(guī)模細(xì)粒度混合專家模型 (MoE) 架構(gòu),大幅提升了開源模型的質(zhì)量。Llama 4 和 Qwe
    的頭像 發(fā)表于 09-06 15:21 ?1221次閱讀
    大規(guī)模專家并行<b class='flag-5'>模型</b>在TensorRT-LLM的設(shè)計

    ALINX VD100低功耗端側(cè)大模型部署方案,運(yùn)行3B模型功耗5W?!

    完整模型,以降低延遲、保護(hù)隱私并節(jié)省通信成本。但真正落地時卻發(fā)現(xiàn):功耗吃緊、模型裁剪嚴(yán)重、開發(fā)流程繁瑣,使得“能運(yùn)行”遠(yuǎn)遠(yuǎn)達(dá)不到“用得好”。 基于 ALINX VD100 開發(fā)平臺,客戶打造出一套面向 AI 終端的大
    的頭像 發(fā)表于 09-03 14:58 ?721次閱讀
    ALINX VD100低功耗端側(cè)大<b class='flag-5'>模型</b>部署方案,<b class='flag-5'>運(yùn)行</b><b class='flag-5'>3</b>B<b class='flag-5'>模型</b>功耗<b class='flag-5'>僅</b>5W?!

    英特爾可變顯存技術(shù)讓32GB內(nèi)存筆記本流暢運(yùn)行Qwen 30B大模型

    近日,阿里通義千問發(fā)布了兩款新版本30B(300億參數(shù))MoE大模型——Qwen3-30B-A3B-Instruct-2507 和 Qwen3-Coder-30B-A3B-Instru
    的頭像 發(fā)表于 08-14 15:39 ?1631次閱讀

    OpenAI發(fā)布2款開源模型

    單個 H100 GPU 上運(yùn)行, 80 GB 內(nèi)存,專為生產(chǎn)環(huán)境、通用應(yīng)用和高推理需求的用例設(shè)計,既可以部署在數(shù)據(jù)中心,也能在高端臺式機(jī)和筆記本電腦上
    的頭像 發(fā)表于 08-06 14:25 ?1026次閱讀

    模型推理顯存和計算量估計方法研究

    (如全連接層、卷積層等)確定所需的顯存大??; (3)將各層顯存大小相加,得到模型總的顯存需求。 基于神經(jīng)網(wǎng)絡(luò)剪枝的
    發(fā)表于 07-03 19:43

    中國移動攜手華為發(fā)布網(wǎng)絡(luò)運(yùn)行模型2.0

    近日,在2025 MWC上海期間,由IMT2020(5G)推進(jìn)組和中國移動主辦、華為承辦的5G-A網(wǎng)絡(luò)賦能差異化體驗產(chǎn)業(yè)圓桌上,中國移動攜手華為發(fā)布了基于5G-A核心網(wǎng)的網(wǎng)絡(luò)運(yùn)行模型2.0
    的頭像 發(fā)表于 07-01 15:32 ?1034次閱讀

    使用 NPU 插件對量化Llama 3.1 8b 模型進(jìn)行推理時出現(xiàn)“從 __Int64 轉(zhuǎn)換為無符號 int 的錯誤”,怎么解決?

    安裝了 OpenVINO? GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-
    發(fā)表于 06-25 07:20

    瑞芯微模型量化文件構(gòu)建

    模型是一張圖片輸入時,量化文件如上圖所示。但是我現(xiàn)在想量化deepprivacy人臉匿名模型,他的輸入是四個輸入。該模型訓(xùn)練時數(shù)據(jù)集只標(biāo)注
    發(fā)表于 06-13 09:07

    探索在Arm平臺運(yùn)行Llama 4 Scout模型

    人工智能 (AI) 正在加速發(fā)展,也越來越智能化。當(dāng)今的開源大語言模型不僅功能強(qiáng)大,而且在設(shè)計時充分考慮了實際部署的需求,因而具有輕量化和經(jīng)濟(jì)高效的特點,可大規(guī)模部署到數(shù)十億臺設(shè)備上。簡而言之,對于開發(fā)者可能想到的各種情形,當(dāng)今的開源大語言
    的頭像 發(fā)表于 05-20 09:54 ?745次閱讀

    將Deepseek移植到i.MX 8MP|93 EVK的步驟

    此共享介紹了如何將 deepseek 移植到i.MX93EVK使用 llama.cpp 的 Yocto BSP 本文檔使用的主要測試模型是在 deepseek 模型的基礎(chǔ)上進(jìn)行提煉和量化
    發(fā)表于 03-26 06:08

    無法在OVMS上運(yùn)行來自Meta的大型語言模型 (LLM),為什么?

    無法在 OVMS 上運(yùn)行來自 Meta 的大型語言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運(yùn)行 llama
    發(fā)表于 03-05 08:07