DoRA: Gewichtsdekomponierte niedrigrangige Anpassung

Unter den weit verbreiteten verlustarmen Feinabstimmungsmethoden (Parameter-Efficient Fine-Tuning, PEFT) haben LoRA und deren Varianten erhebliche Beliebtheit erlangt, da sie zusätzliche Kosten bei der Inferenz vermeiden. Dennoch besteht häufig eine Genauigkeitslücke zwischen diesen Methoden und der vollständigen Feinabstimmung (Full Fine-Tuning, FT). In dieser Arbeit führen wir zunächst eine neuartige Gewichtszerlegungsanalyse ein, um die inhärenten Unterschiede zwischen FT und LoRA zu untersuchen. Auf der Grundlage dieser Erkenntnisse schlagen wir Weight-Decomposed Low-Rank Adaptation (DoRA) vor, um die Lernkapazität von FT nachzuahmen. DoRA zerlegt das vortrainierte Gewicht in zwei Komponenten – Betrag und Richtung – zur Feinabstimmung und verwendet speziell LoRA für die Richtungsanpassungen, um die Anzahl der trainierbaren Parameter effizient zu minimieren. Durch die Verwendung von \ours~verstärken wir sowohl die Lernkapazität als auch die Trainingsstabilität von LoRA, ohne zusätzliche Inferenzkosten zu verursachen. \ours~übertrifft konsistent LoRA bei der Feinabstimmung von LLaMA, LLaVA und VL-BART auf verschiedenen Downstream-Aufgaben wie allgemeine Vernunftschlussfolgerung, visuelle Anweisungstuning sowie Bild-/Video-Text-Verständnis. Der Quellcode ist unter https://github.com/NVlabs/DoRA verfügbar.