HyperAIHyperAI
il y a 17 jours

Arithmétique de tâche dans l’espace tangent : amélioration de la modification des modèles pré-entraînés

Guillermo Ortiz-Jimenez, Alessandro Favero, Pascal Frossard
Arithmétique de tâche dans l’espace tangent : amélioration de la modification des modèles pré-entraînés
Résumé

L’arithmétique des tâches est récemment apparue comme une approche à faible coût et évolutif pour modifier directement les modèles préentraînés dans l’espace des poids : en additionnant les poids ajustés par fine-tuning pour différentes tâches, les performances du modèle peuvent être améliorées sur ces tâches, tandis que leur soustraction entraîne une perte de mémoire des tâches. Pourtant, notre compréhension de l’efficacité de l’arithmétique des tâches et de ses principes fondamentaux reste limitée. Nous présentons une étude approfondie de l’arithmétique des tâches dans les modèles vision-langage, et montrons que la désentrelacement des poids est le facteur clé qui en assure l’efficacité. Cette propriété émerge durant l’étape de préentraînement et se manifeste lorsque des directions distinctes dans l’espace des poids gouvernent des régions locales et séparées dans l’espace fonctionnel associées aux différentes tâches. Notamment, nous démontrons que le fine-tuning des modèles dans leur espace tangent — en les linéarisant — amplifie significativement le désentrelacement des poids. Cela conduit à des améliorations substantielles des performances sur plusieurs benchmarks d’arithmétique des tâches et sur une variété de modèles. Sur la base de ces résultats, nous fournissons une analyse théorique et empirique du noyau tangent neuronal (NTK) de ces modèles, et établissons un lien convaincant entre l’arithmétique des tâches et la localisation spatiale des fonctions propres du NTK. Globalement, notre travail révèle de nouveaux éléments sur les mécanismes fondamentaux de l’arithmétique des tâches, et propose une méthode plus fiable et efficace pour modifier les modèles préentraînés via la linéarisation du NTK.

Arithmétique de tâche dans l’espace tangent : amélioration de la modification des modèles pré-entraînés | Articles de recherche récents | HyperAI