11 天前
DoRA:权重分解低秩适配
Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Min-Hung Chen

摘要
在广泛使用的参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法中,LoRA及其变体因其避免引入额外推理开销而受到广泛关注。然而,这些方法与全量微调(Full Fine-Tuning, FT)之间仍普遍存在性能差距。本文首次提出一种新颖的权重分解分析,用以探究FT与LoRA之间的本质差异。基于该分析结果,我们提出了一种新的方法——权重分解低秩适配(Weight-Decomposed Low-Rank Adaptation, DoRA)。DoRA将预训练权重分解为两个组成部分:幅值(magnitude)与方向(direction),并在微调过程中分别处理。具体而言,采用LoRA对方向分量进行更新,从而在显著减少可训练参数数量的同时,有效提升模型的学习能力。通过引入DoRA,我们在不增加任何推理开销的前提下,显著增强了LoRA的学习能力与训练稳定性。在多个下游任务上,包括常识推理、视觉指令微调以及图像/视频-文本理解,DoRA在LLaMA、LLaVA和VL-BART等模型上的微调表现均持续优于LoRA。相关代码已开源,地址为:https://github.com/NVlabs/DoRA。