HyperAIHyperAI
il y a 11 jours

GIFT-SW : Affinage par injection de bruit gaussien des poids saillants pour les LLM

Maxim Zhelnin, Viktor Moskvoretskii, Egor Shvetsov, Egor Venediktov, Mariya Krylova, Aleksandr Zuev, Evgeny Burnaev
GIFT-SW : Affinage par injection de bruit gaussien des poids saillants pour les LLM
Résumé

Les méthodes de fine-tuning efficaces en paramètres (PEFT) ont gagné en popularité et ont démocratisé l’utilisation des grands modèles linguistiques (LLM). Des études récentes ont montré qu’un petit sous-ensemble de poids a une influence significative sur les performances. À partir de cette observation, nous introduisons une nouvelle méthode PEFT, appelée Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW). Notre méthode met à jour uniquement les colonnes pertinentes, tout en injectant un bruit gaussien dans les colonnes non pertinentes. Pour identifier ces colonnes, nous avons développé une métrique de sensibilité généralisée, qui étend et unifie les métriques proposées dans des travaux antérieurs. Des expérimentations menées sur des modèles LLaMA montrent que GIFT-SW surpasser le fine-tuning complet ainsi que les méthodes PEFT modernes, sous un même budget computationnel. En outre, GIFT-SW présente des avantages pratiques pour restaurer les performances des modèles soumis à une quantification à précision mixte, tout en maintenant les poids saillants en précision pleine.

GIFT-SW : Affinage par injection de bruit gaussien des poids saillants pour les LLM | Articles de recherche récents | HyperAI