一種新穎的大型語言模型知識更新微調(diào)范式

先遺忘后學習：基于參數(shù)計算的大模型知識更新

最近，大型語言模型（LLMs）展示了其令人驚嘆的文本理解和生成能力。然而，即使是更為強大的LLMs，仍有可能從訓練語料庫中學到不正確的知識，以及隨時間而過時的知識。直接使用包含新知識的數(shù)據(jù)進行二次微調(diào)可能在更新知識時效果不佳，因為新舊知識之間存在沖突。在本文中，我們提出了一種新的微調(diào)范式，被稱為F-Learning（先遺忘后學習），它基于參數(shù)計算，實現(xiàn)對舊知識的遺忘和對新知識的學習。在兩個公開可用的數(shù)據(jù)集上的實驗證明，我們提出的F-Learning顯著改善了全量微調(diào)和LoRA微調(diào)的知識更新性能。此外，我們還發(fā)現(xiàn)，通過減去LoRA的參數(shù)來遺忘舊知識可以達到與減去全量微調(diào)參數(shù)相似的效果，有時甚至可以顯著超越它。

論文：
Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models

地址：
https://arxiv.org/pdf/2311.08011.pdf

研究背景

大型語言模型（LLMs）具有出色的自然語言理解和生成能力。盡管LLMs在學習方面非常強大，但仍有可能在語料庫中學到錯誤的知識。此外，現(xiàn)實世界中的許多知識不斷更新，LLMs中的一些最初正確的知識隨時間變得過時和無效。例如，“美國總統(tǒng)是誰？”在2020年的答案可能是“唐納德·特朗普”，而現(xiàn)在的答案是“喬·拜登”。因此，LLMs需要在使用過程中不斷更新其發(fā)現(xiàn)的過時和錯誤的知識?，F(xiàn)有的模型編輯和知識更新方法通常會添加額外的參數(shù)、存儲模塊、知識庫等，而編輯過程不像直接使用新知識進行微調(diào)那樣簡單明了。

目前，學習新知識時最常用的方法仍然是直接微調(diào)模型。當人類建立起自己的初始認知時，如果他們接觸到與初始認知不一致的新知識，通常會感到?jīng)_突，難以學習和接受新知識。如果原始認知和知識被遺忘，那么待學習的新知識就不會與原始認知和知識發(fā)生沖突，這使得學習和吸收新知識變得更為簡單。例如，如果一個人從小被教育認為“地球是扁平的”，那么當他們成年后接受與之相矛盾的“地球是圓的”知識將會是一項挑戰(zhàn)。然而，如果他們能夠忘記“地球是扁平的”這個錯誤的知識，或者在接觸到錯誤信息之前學習和接受“地球是圓的”新知識，就會簡單得多。

受以上經(jīng)驗觀察的啟發(fā)，我們提出了一種稱為F-Learning（先遺忘后學習）的知識更新新范式。具體而言，我們首先使用舊知識微調(diào)初始模型，然后從初始模型參數(shù)中減去微調(diào)后的模型參數(shù)與初始模型參數(shù)的差值，這個過程被定義為“舊知識遺忘”。然后，我們使用新知識在遺忘舊知識后的模型上進行微調(diào)。這個過程我們定義為“新知識學習”。經(jīng)過遺忘舊知識和學習新知識的兩個階段后，模型的知識得到更新。

研究方法

與引入外部知識庫或額外參數(shù)不同，我們的方法主要基于全量微調(diào)和參數(shù)高效微調(diào)。它包括兩個階段：遺忘舊知識和學習新知識。

遺忘舊知識

假設在數(shù)據(jù)集上進行的有監(jiān)督微調(diào)（SFT）向LLMs注入了新知識或激活了與新知識相關的擬合能力，這反映在模型參數(shù)的變化上。在這個階段，對于給定的大型語言模型及其參數(shù)，我們定義增量參數(shù)為知識參數(shù)，計算如下：其中FT表示有監(jiān)督微調(diào)，和分別表示包含知識的數(shù)據(jù)集以及原始模型的參數(shù)。類似地，我們首先在一個包含舊知識的數(shù)據(jù)集上對進行微調(diào)，然后用微調(diào)后的模型參數(shù)減去原始模型的參數(shù)得到表示舊知識的知識參數(shù)，如下所示：

其中表示包含我們需要遺忘的舊知識的數(shù)據(jù)集。受先前工作啟發(fā)，我們認為從參數(shù)θ當中減去參數(shù)能夠幫助模型遺忘這部分舊知識，所以我們將遺忘舊知識的過程定義如下：

其中是控制遺忘比例的超參數(shù)。現(xiàn)在我們得到了一個參數(shù)為的新模型。值得注意的是這一遺忘舊知識的過程只有當模型充分掌握舊知識的情況下才成立，否則模型無需進行遺忘也不需要進行知識更新。

學習新知識

對于經(jīng)歷過遺忘舊知識過程的模型，接著我們將通過監(jiān)督微調(diào)向注入新知識，以進行知識更新。同樣地，我們定義學習新知識的過程如下：

其中表示有監(jiān)督微調(diào)，表示學習了新知識的模型的參數(shù)，表示包含需要更新的的新知識的數(shù)據(jù)集。

實驗

在實驗中我們采用了ZsRE和COUNTE RF ACT兩個廣泛使用的數(shù)據(jù)集，并選擇Reliability、Generality、Locality作為主要評測指標，分別評估知識更新的準確率、泛化性以及對無關知識的影響程度。我們將直接對原始模型進行新知識有監(jiān)督微調(diào)得到的結(jié)果作為基線。實驗結(jié)果如下所示：

我們使用LLAMA2-7B作為實驗的基礎模型。我們主要評估將舊知識更新為新知識的能力，因此模型將首先在舊知識上進行為期3個時期的微調(diào)。表1中F-Learning中設置的超參數(shù)λ分別取值為0.3、0.7、0.1和1.5。所有實驗的學習率和時期都設置為5e-5和3。為了確保模型輸出的唯一性，在測試期間我們將模型的溫度設置為0。在硬件方面，我們使用了總共4個A100-80G GPU進行實驗。

實驗表明在首次遺忘之后，無論是全量微調(diào)還是LoRA，在學習方面都有顯著的提升。具體而言，與直接進行全量微調(diào)相比，F(xiàn)-Learning FT在ZsRE數(shù)據(jù)集上將Reliabilty和Generality分別提高了2.71和4.84點。與此同時，Locality指標基本保持不變，僅下降了0.43點。與直接進行全量微調(diào)相比，F(xiàn)-Learning LoRA在ZsRE數(shù)據(jù)集上將Reliabilty和Generality分別提高了2.71和4.84點。Locality指標基本保持不變，僅下降了0.43點。與LoRA微調(diào)相比，F(xiàn)-LearningLoRA在ZsRE數(shù)據(jù)集上將Reliabilty、Generality和Locality指標分別提高了3.81、4.01和1.67點。同樣，在COUNTERFACT數(shù)據(jù)集上，與直接進行全體積微調(diào)相比，F(xiàn)-LearningLoRA將Reliabilty、Generality和Locality指標分別提高了3.54、1.48和0.07點。與LoRA微調(diào)相比，F(xiàn)-LearningLoRA在ZsRE數(shù)據(jù)集上將Reliabilty、Generality和Locality指標分別提高了0.61、0.39和0.34點?？傮w而言，全量微調(diào)比LoRA更具學習新知識的能力，而我們的F-Learning在一定程度上相對于全量微調(diào)和LoRA取得了提升。

LoRA遺忘然后全量學習

在上述實驗設置中，我們采用的方法是同時基于全量微調(diào)（或LoRA）執(zhí)行舊知識遺忘和新知識學習。然而，我們發(fā)現(xiàn)在某些情況下，通過減去全量微調(diào)的知識參數(shù)（即通過全量微調(diào)遺忘舊知識）會完全破壞我們基礎模型的核心功能，導致評估指標顯著下降。鑒于LoRA是一種參數(shù)高效的微調(diào)方法，與全量微調(diào)相比對參數(shù)的影響較小，我們嘗試了一種新的方法，即通過LoRA遺忘舊知識，然后通過全量微調(diào)學習新知識，以尋求一種平衡。與上文類似，我們對這一過程定義如下：

為了驗證，我們保持與上述相同的實驗設置并進行實驗。結(jié)果如表2所示。注意，在表2中，F(xiàn)-Learning中設置的超參數(shù)λ分別取值為0.3、3、0.1和3。結(jié)果支持了通過LoRA遺忘舊知識，然后通過全量微調(diào)學習的方法完全超越了直接的全量微調(diào)，幾乎實現(xiàn)了對遺忘并通過全量微調(diào)學習的方法的近似甚至超越。具體而言，與方法F-Learning FT相比，F(xiàn)-Learning LoRA?FT在COUNTERFACT數(shù)據(jù)集上將Reliabilty和Generality分別提高了9.20和6.11點。盡管F-Learning LoRA?FT在ZsRE數(shù)據(jù)集上的表現(xiàn)約低1-2點，但仍然在全量微調(diào)方面具有很大優(yōu)勢，并有提升的空間。至于Locality指標，F(xiàn)-Learning LoRA?FT在zsRE和COUNTERFACT數(shù)據(jù)集上都取得了約1點的提升。我們經(jīng)驗性地認為這是因為基于LoRA的遺忘對參數(shù)的影響較小，從而對無關知識造成的損害較小。實驗證明通過減去LoRA的參數(shù)進行遺忘可以達到近似于減去全量微調(diào)參數(shù)的效果，這具有很大的價值，因為在大多數(shù)情況下，LoRA的時間成本和計算成本都遠遠低于全量微調(diào)。