HyperAIHyperAI
il y a 15 jours

Amélioration de la transférabilité des modèles d'apprentissage auto-supervisé par une adaptation fine avec la normalisation par lots

{Álvaro García-Martín, Pablo Carballeira, Marcos Escudero-Viñolo, Kirill Sirotkin}
Résumé

Abondance de données non étiquetées et progrès récents dans l’apprentissage auto-supervisé (Self-Supervised Learning, SSL) ont fait de cette approche le choix privilégié dans de nombreux scénarios de transfert d’apprentissage. En raison du développement rapide et continu des méthodes SSL, les praticiens sont aujourd’hui confrontés à un nombre croissant de modèles entraînés pour une tâche ou un domaine spécifique, ce qui rend nécessaire l’existence d’une méthode permettant d’estimer la performance de transfert sur des tâches ou domaines nouveaux. En général, cette estimation est réalisée par la méthode dite de « linear probing », qui consiste à entraîner un classificateur linéaire sur les caractéristiques extraites par un extracteur de caractéristiques gelé. Dans ce travail, nous identifions un défaut majeur de la linear probing : elle présente une corrélation faible avec la performance des modèles finement ajustés de manière end-to-end — qui constitue souvent l’objectif final dans le transfert d’apprentissage — et, dans certains cas, peut même fournir une estimation catastrophiquement erronée du potentiel d’un modèle. Nous proposons une méthode permettant d’obtenir une tâche proxy nettement plus performante en dégelant et en ajustant conjointement les couches de normalisation par lot (batch normalization) avec la tête de classification. À un coût supplémentaire d’entraînement de seulement 0,16 % des paramètres du modèle (dans le cas de ResNet-50), nous obtenons une tâche proxy qui (i) présente une corrélation plus forte avec la performance obtenue par ajustement end-to-end, (ii) améliore les performances de la linear probing dans les régimes de apprentissage à très peu d’exemples (few-shot) et à nombreux exemples (many-shot), et (iii) dépasse, dans certains cas, à la fois la linear probing et l’ajustement end-to-end, atteignant ainsi un niveau d’état de l’art sur un jeu de données de pathologie. Enfin, nous analysons et discutons des modifications apportées aux distributions de caractéristiques par l’entraînement des couches de normalisation par lot, qui pourraient expliquer cette amélioration. Le code est disponible à l’adresse suivante : https://github.com/vpulab/bn_finetuning.

Amélioration de la transférabilité des modèles d'apprentissage auto-supervisé par une adaptation fine avec la normalisation par lots | Articles de recherche récents | HyperAI