il y a 17 jours

Model Ratatouille : Réutilisation de modèles diversifiés pour une généralisation hors distribution

Alexandre Ramé, Kartik Ahuja, Jianyu Zhang, Matthieu Cord, Léon Bottou, David Lopez-Paz

Résumé

Les modèles fondamentaux redéfinissent la manière dont les systèmes d’intelligence artificielle sont conçus. Les praticiens suivent désormais une procédure standard pour développer leurs solutions d’apprentissage automatique : à partir d’un modèle fondamental pré-entraîné, ils ajustent les poids sur la tâche cible d’intérêt. Ainsi, Internet regorge d’un petit nombre de modèles fondamentaux adaptés à de nombreuses tâches diverses : ces ajustements spécifiques existent isolément, sans s’entraider. À notre avis, il s’agit là d’une opportunité manquée, car ces modèles spécialisés contiennent des caractéristiques riches et diversifiées. Dans cet article, nous proposons donc une nouvelle stratégie, appelée Model Ratatouille, visant à réutiliser les multiples ajustements du même modèle fondamental sur des tâches auxiliaires diverses. Plus précisément, nous réaffectons ces poids auxiliaires comme points de départ pour plusieurs ajustements parallèles sur la tâche cible ; nous moyennons ensuite tous les poids ajustés afin d’obtenir le modèle final. Cette stratégie de réutilisation vise à maximiser la diversité des poids en exploitant la diversité des tâches auxiliaires. Expérimentalement, elle améliore l’état de l’art sur le benchmark de référence DomainBed pour la généralisation hors distribution. À l’avenir, ce travail contribue à l’émergence d’un paradigme d’apprentissage automatique mis à jour, analogue au développement logiciel open source, où la communauté collabore pour mettre à jour de manière fiable les modèles d’apprentissage automatique. Notre code est disponible à l’adresse suivante : https://github.com/facebookresearch/ModelRatatouille.