DoRA : Adaptation par Faible Rang à Décomposition de Poids

Parmi les méthodes largement utilisées de fine-tuning efficace en paramètres (PEFT), LoRA et ses variantes ont connu une popularité croissante en raison de leur capacité à éviter des coûts supplémentaires lors de l’inférence. Toutefois, un écart de précision subsiste fréquemment entre ces approches et le fine-tuning complet (FT). Dans ce travail, nous introduisons tout d’abord une nouvelle analyse de décomposition des poids afin d’étudier les différences intrinsèques entre FT et LoRA. À partir de ces observations, nous proposons une méthode appelée Weight-Decomposed Low-Rank Adaptation (DoRA), conçue pour imiter la capacité d’apprentissage du FT. DoRA décompose les poids pré-entraînés en deux composantes : une composante de magnitude et une composante de direction, et procède au fine-tuning en utilisant spécifiquement LoRA pour les mises à jour directionnelles, permettant ainsi de minimiser efficacement le nombre de paramètres à entraîner. En utilisant \ours, nous améliorons à la fois la capacité d’apprentissage et la stabilité d’entraînement de LoRA, sans introduire de surcoût d’inférence. \ours~surpasse de manière cohérente LoRA sur le fine-tuning de LLaMA, LLaVA et VL-BART sur diverses tâches downstream, telles que le raisonnement communautaire, le fine-tuning d’instructions visuelles et la compréhension d’images/vidéos-texte. Le code est disponible à l’adresse suivante : https://github.com/NVlabs/DoRA.