91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種信息引導的量化后LLM微調(diào)新算法IR-QLoRA

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 2024-11-19 17:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大模型應用開卷,連一向保守的蘋果,都已釋放出發(fā)展端側(cè)大模型的信號。 問題是,大語言模型(LLM)卓越的表現(xiàn)取決于“力大磚飛”,如何在資源有限的環(huán)境中部署大模型并保障性能,仍然頗具挑戰(zhàn)。 以對大模型進行量化+LoRA的路線為例,有研究表明,現(xiàn)有方法會導致量化的LLM嚴重退化,甚至無法從LoRA微調(diào)中受益。 為了解決這一問題,來自蘇黎世聯(lián)邦理工學院、北京航空航天大學和字節(jié)跳動的研究人員,最新提出了一種信息引導的量化后LLM微調(diào)新算法IR-QLoRA。論文已入選ICML 2024 Oral論文。

a4f62d2e-9f6e-11ef-93f3-92fbcf53809c.png

論文標題:Accurate LoRA-Finetuning Quantization of LLMs via Information Retention

論文鏈接:

hhttps://arxiv.org/pdf/2402.05445

代碼鏈接:

https://github.com/htqin/IR-QLoRA 論文介紹,IR-QLoRA能有效改善量化導致的大模型性能退化。在LLaMA和LLaMA 2系列中,用該方法微調(diào)的2位模型,相比于16位模型僅有0.9%的精度差異。

a50209b4-9f6e-11ef-93f3-92fbcf53809c.png

該方法的核心思想,是通過信息保留來使LoRA微調(diào)量化的大語言模型實現(xiàn)精度提升。 包含從統(tǒng)一信息角度衍生的兩種技術(shù):信息校準量化和信息彈性連接。

信息校準量化LLM的量化權(quán)重被期望反映原始對應方所攜帶的信息,但比特寬度的減小嚴重限制了表示能力。從信息的角度來看,量化LLM和原始LLM的權(quán)重之間的相關(guān)性表示為互信息。

a518bdee-9f6e-11ef-93f3-92fbcf53809c.png

在LLM量化后,由于比特寬度的顯著減小導致表示能力的降低,量化權(quán)重的熵遠小于原始權(quán)重的熵。因此,優(yōu)先考慮低比特權(quán)重內(nèi)的信息恢復對于增強量化LLM至關(guān)重要。 首先從數(shù)學上定義信息校準的優(yōu)化目標。校準過程可以看為向量化器引入一個校準常數(shù)以最大化信息,量化過程可以表述如下:

a51f8da4-9f6e-11ef-93f3-92fbcf53809c.png

由于原始權(quán)重是固定的,公式 (1) 中的優(yōu)化目標可以表示為:

a533c666-9f6e-11ef-93f3-92fbcf53809c.png

由于直接求解公式 (3) 中的目標非常耗時,作者提出了一種分塊校準量化器信息的兩步策略: 第一步是初始化校準常數(shù)。基于神經(jīng)網(wǎng)絡權(quán)重正態(tài)分布的常見假設,將每個權(quán)重量化塊的常數(shù)初始化為中值。由于正態(tài)分布中靠近對稱軸的區(qū)域的概率密度較高,因此該初始化旨在更大程度地利用量化器的間隔。應用位置相關(guān)中值來初始化, 以減輕異常值的影響。 第二步是優(yōu)化校準常數(shù)、量化尺度、雙量化尺度。使用信息熵作為度量,并進行基于搜索的優(yōu)化以獲得。通過將線性劃分為個候選來創(chuàng)建的搜索空間,其中是標準差,是系數(shù)。使用每個候選校準權(quán)重后,量化校準的權(quán)重并計算信息熵。獲得的量化尺度與基線一致。通過得到量化尺度,然后二次量化為和。 對于優(yōu)化后的校準常數(shù),執(zhí)行類似于尺度的雙量化以節(jié)省內(nèi)存,信息校準量化的量化過程可以總結(jié)為:

a54099ae-9f6e-11ef-93f3-92fbcf53809c.png

信息彈性連接除了基線中的量化LLM之外,由低秩矩陣組成的LoRA也阻礙了信息的恢復,為了增強LoRA的表示能力,幫助恢復量化LLM的信息,同時保持其輕量級性質(zhì),作者引入了有效的信息彈性連接。該方法構(gòu)建了一個強大的低秩適配器,有助于利用從量化的LLM單元導出的信息。 具體來說,首先根據(jù)輸入和中間維度的最大公約數(shù)對原始特征進行分組和平均,并將其添加到由矩陣計算的輸出中。增加彈性連接的 LoRA 的第一個子單元可以表示為:

a564b06e-9f6e-11ef-93f3-92fbcf53809c.png

LoRA 的后一個矩陣將低秩中間表示變換為輸入維度,因此其伴隨的無參數(shù)變換使用重復串聯(lián)來增加維度。后一個子單元的計算過程可以表示為:

a56bed48-9f6e-11ef-93f3-92fbcf53809c.png

與 LLM 和 LoRA 單元中的矩陣乘法相比,無參數(shù)變換是一種多樣化的變換形式,進一步增強了量化 LLM 的信息表示。

實驗驗證作者廣泛評估了IR-QLoRA的準確性和效率。選擇LLaMA和LLaMA 2系列模型,在Alpaca和Flanv2數(shù)據(jù)集上構(gòu)建參數(shù)高效的微調(diào),使用MMLU和CommonsenseQA基準進行評估微調(diào)后量化模型的效果。 準確率 以下兩張表格分別展示了在Alpaca和Flanv2數(shù)據(jù)集上微調(diào)的MMLU基準的5-shot精度結(jié)果。綜合結(jié)果表明,在各種規(guī)模的LLaMA模型中,IR-QLoRA優(yōu)于所有比較量化方法。 與基線方法QLoRA相比,IR-QLoRA在相同的微調(diào)管道下在MMLU基準上實現(xiàn)了精度的顯著提高。

a58cc73e-9f6e-11ef-93f3-92fbcf53809c.png

a599fe86-9f6e-11ef-93f3-92fbcf53809c.png

此外,在LLaMA 2上的準確性比較,證明了IR-QLoRA跨LLM系列的泛化性能。 下表中的結(jié)果表明,IR-QLoRA不僅平均實現(xiàn)了至少2.7%的性能改進,而且在幾乎每個單獨的指標上都表現(xiàn)出了優(yōu)勢。這些結(jié)果表明IR-QLoRA在不同的LLM系列中表現(xiàn)出很強的泛化性。

a5ae6876-9f6e-11ef-93f3-92fbcf53809c.png

與MMLU基準上的現(xiàn)象類似,在CommonsenseQA基準上,與SOTA方法相比,IR-QLoRA始終保持了LLaMA-7B的最佳平均準確率,而且還顯著提高了大多數(shù)子項的有效性。

a5cb5c74-9f6e-11ef-93f3-92fbcf53809c.png

超低位寬 除了4比特以外,作者還評估了超低位寬下的IR-QLoRA建議。 具體來說,作者采用了QLoRA和LoftQ的量化方法,按照百分位量化方法構(gòu)建了NF2和NF3量化。 下表顯示,隨著量化位寬的減小,基線QLoRA的性能急劇下降,以至于其在2位情況下的性能與隨機相差無幾。 相比之下,IR-QLoRA表現(xiàn)出更優(yōu)越的性能,在Flan v2數(shù)據(jù)集上微調(diào)2位模型時,與16位模型相比僅有0.9%的精度差異。

a5d74e58-9f6e-11ef-93f3-92fbcf53809c.png

效率 IR-QLoRA的信息校準量化和信息彈性連接并沒有帶來額外的存儲和訓練開銷。 如上所示,信息校準量化增加的參數(shù)僅相當于量化的縮放因子,而且采用了雙重量化以進一步減少存儲。因此其帶來的額外存儲空間很小,在4位LLaMA-7B上僅增加了 2.04%。 校準常數(shù)的優(yōu)化過程也只增加了微不足道的訓練時間(例如,LLaMA-7B為 0.46%,LLaMA-13B為 0.31%)。此外,增加的時間僅用于訓練過程中的初始優(yōu)化,并不會導致推理時間的增加。信息彈性連接也只在每層引入了2個額外參數(shù),在整個模型中可以忽略不計。

結(jié)論總的來說,基于統(tǒng)計的信息校準量化可確保LLM的量化參數(shù)準確保留原始信息;以及基于微調(diào)的信息彈性連接可以使LoRA利用不同信息進行彈性表示轉(zhuǎn)換。 廣泛的實驗證明,IRQLoRA在LLaMA和LLaMA 2系列中實現(xiàn)了令人信服的精度提升,即使是2-4位寬,耗時也僅增加了0.45%。 IR-QLoRA具有顯著的多功能性,可與各種量化框架無縫集成,并且大大提高了LLM的LoRA-finetuning量化精度,有助于在資源受限的情況下進行實際部署。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4784

    瀏覽量

    98029
  • LoRa
    +關(guān)注

    關(guān)注

    355

    文章

    1885

    瀏覽量

    237966
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3647

    瀏覽量

    5176
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    346

    瀏覽量

    1327

原文標題:ICML 2024 | 量化大模型退化嚴重?ETH北航字節(jié)推出LoRA新范式

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    小藝開放平臺平臺功能

    開發(fā)模式支撐智能體靈活構(gòu)建 LLM模式 LLM 模式是一種基于大模型的智能體編排方式。開發(fā)者按需選擇大模型,根據(jù)業(yè)務邏輯編寫提示詞,以LLM
    發(fā)表于 01-30 15:24

    【CIE全國RISC-V創(chuàng)新應用大賽】+ 一種基于LLM的可通過圖像語音控制的元件庫管理工具

    一種基于LLM的可通過圖像語音控制的元件庫管理工具 項目概述 ? 庫存管理在我們的生活中幾乎無處不在,在許多小型的庫存當中,比如實驗室中的庫存管理,往往沒有人去專職維護,這就會導致在日積月累中逐漸
    發(fā)表于 11-12 19:32

    MD5信息摘要算法實現(xiàn)(基于蜂鳥E203協(xié)處理器)

    組512-bit的消息分成16個32位的消息塊,表示為:message_var[0]、message_var[1]……message_var[15]。經(jīng)過MD5算法64輪處理,輸出個位長為128-bit
    發(fā)表于 10-30 07:18

    指令集測試的一種糾錯方法

    本文描述在進行指令集測試的一種糾錯方法 1.打開測試指令集對應的dump文件 dump文件是指由匯編文件進行反匯編之后,可以供人閱讀指令的反匯編文件。其包含了每條指令的具體操作的信息。指令集測試
    發(fā)表于 10-24 14:04

    加密算法的應用

    加密是一種保護信息安全的重要手段,近年來隨著信息技術(shù)的發(fā)展,加密技術(shù)的應用越來越廣泛。本文將介紹加密算法的發(fā)展、含義、分類及應用場景。 1. 加密
    發(fā)表于 10-24 08:03

    米爾RK3576部署端側(cè)多模態(tài)多輪對話,6TOPS算力驅(qū)動30億參數(shù)LLM

    定IMAGE_HEIGHT、IMAGE_WIDTH及EMBED_SIZE; 微調(diào) LLM 模型:借助 RKLLM 工具鏈的 LoRA-INT4 量化支持,在 24 GB 顯存的 PC 上,30 分鐘內(nèi)可完成
    發(fā)表于 09-05 17:25

    一種新的無刷直流電機反電動勢檢測方法

    無位置傳感器無刷直流電機的控制算法是近年來研究的熱點之,有霍爾位置信號直流電機根據(jù)霍爾狀態(tài)來確定通斷功率器件。利用無刷直流電機的數(shù)學模型,根據(jù)反電動勢檢測原理,提出了一種新的線反電動勢檢測方法來
    發(fā)表于 08-07 14:29

    請問IR611 Web配置頁面是否可以看到SIM卡信息

    IR611 Web配置頁面是否可以看到SIM卡信息?
    發(fā)表于 08-06 08:17

    一種新的無刷直流電機反電動勢檢測方法

    無位置傳感器無刷直流電機的控制算法是近年來研究的熱點之,有霍爾位置信號直流電機根據(jù)霍爾狀態(tài)來確定通斷功率器件。利用無刷直流電機的數(shù)學模型,根據(jù)反電動勢檢測原理,提出了一種新的線反電動勢檢測方法來
    發(fā)表于 08-04 14:59

    摩智能四篇論文入選三大國際頂會

    2025 年上半年,繼年初被 AAAI、ICLR、DAC 三大國際頂會收錄 5 篇論文摩智能近期又有 4 篇論文入選CVPR、ICML、ACL三大國際頂會,面向大模型的編碼、量化、壓縮與
    的頭像 發(fā)表于 05-29 15:37 ?1321次閱讀

    詳解 LLM 推理模型的現(xiàn)狀

    領(lǐng)域的最新研究進展,特別是自DeepSeekR1發(fā)布興起的推理時間計算擴展相關(guān)內(nèi)容。在LLM中實施和改進推理簡單來說,基于LLM的推理模型是一種旨在通過生成中間
    的頭像 發(fā)表于 04-03 12:09 ?1610次閱讀
    詳解 <b class='flag-5'>LLM</b> 推理模型的現(xiàn)狀

    一種基于分數(shù)階 PID 直流電機調(diào)速的 AGV 控制系統(tǒng)

    為設計一種低成本、抗干擾、穩(wěn)定可靠的 AGV,提出一種基于磁帶導航的 AGV 系統(tǒng)。采用 Megawin 公司的80C51單片機為控制核心,以并排對稱設計的霍爾傳感器實現(xiàn)循跡和糾偏,紅外光
    發(fā)表于 03-25 15:10

    基于DBFP與DB-Attn的算法硬件協(xié)同優(yōu)化方案

    本文討論了LLM推理過程對計算資源需求急劇攀升的背景下,現(xiàn)有量化和剪枝技術(shù)、新數(shù)據(jù)格式存在的不足,提出動態(tài)塊浮點數(shù)(DBFP)及其配套算法-硬件協(xié)同框架DB-Attn以解決這些問題。
    的頭像 發(fā)表于 03-19 14:33 ?3403次閱讀
    基于DBFP與DB-Attn的<b class='flag-5'>算法</b>硬件協(xié)同優(yōu)化方案

    《AI Agent 應用與項目實戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識庫

    的相似度搜索算法;響應生成器則負責將檢索結(jié)果整合到提示模板中,調(diào)用LLM生成最終答案。在此再提下云端部署方案,可以分析使用API Key調(diào)用云端LLM的優(yōu)勢和注意事項。這種部署方式能
    發(fā)表于 03-07 19:49

    是否可以輸入隨機數(shù)據(jù)集來生成INT8訓練量化模型?

    無法確定是否可以輸入隨機數(shù)據(jù)集來生成 INT8 訓練量化模型。
    發(fā)表于 03-06 06:45