il y a 6 mois

Résumé

L’arithmétique des tâches est récemment apparue comme une approche à faible coût et évolutif pour modifier directement les modèles préentraînés dans l’espace des poids : en additionnant les poids ajustés par fine-tuning pour différentes tâches, les performances du modèle peuvent être améliorées sur ces tâches, tandis que leur soustraction entraîne une perte de mémoire des tâches. Pourtant, notre compréhension de l’efficacité de l’arithmétique des tâches et de ses principes fondamentaux reste limitée. Nous présentons une étude approfondie de l’arithmétique des tâches dans les modèles vision-langage, et montrons que la désentrelacement des poids est le facteur clé qui en assure l’efficacité. Cette propriété émerge durant l’étape de préentraînement et se manifeste lorsque des directions distinctes dans l’espace des poids gouvernent des régions locales et séparées dans l’espace fonctionnel associées aux différentes tâches. Notamment, nous démontrons que le fine-tuning des modèles dans leur espace tangent — en les linéarisant — amplifie significativement le désentrelacement des poids. Cela conduit à des améliorations substantielles des performances sur plusieurs benchmarks d’arithmétique des tâches et sur une variété de modèles. Sur la base de ces résultats, nous fournissons une analyse théorique et empirique du noyau tangent neuronal (NTK) de ces modèles, et établissons un lien convaincant entre l’arithmétique des tâches et la localisation spatiale des fonctions propres du NTK. Globalement, notre travail révèle de nouveaux éléments sur les mécanismes fondamentaux de l’arithmétique des tâches, et propose une méthode plus fiable et efficace pour modifier les modèles préentraînés via la linéarisation du NTK.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Guillermo Ortiz-Jimenez Alessandro Favero Pascal Frossard

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Guillermo Ortiz-Jimenez Alessandro Favero Pascal Frossard

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Arithmétique de tâche dans l’espace tangent : amélioration de la modification des modèles pré-entraînés | Articles | HyperAI

Command Palette

Arithmétique de tâche dans l’espace tangent : amélioration de la modification des modèles pré-entraînés

Guillermo Ortiz-Jimenez Alessandro Favero Pascal Frossard

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Arithmétique de tâche dans l’espace tangent : amélioration de la modification des modèles pré-entraînés

Guillermo Ortiz-Jimenez Alessandro Favero Pascal Frossard

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Arithmétique de tâche dans l’espace tangent : amélioration de la modification des modèles pré-entraînés

Guillermo Ortiz-Jimenez Alessandro Favero Pascal Frossard

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters