il y a 17 jours

Big Transfer (BiT) : Apprentissage général de représentations visuelles

Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Joan Puigcerver, Jessica Yung, Sylvain Gelly, Neil Houlsby

Résumé

Le transfert de représentations pré-entraînées améliore l’efficacité en échantillons et simplifie le réglage des hyperparamètres lors de l’entraînement de réseaux de neurones profonds pour la vision. Nous reprenons le paradigme du pré-entraînement sur de grands jeux de données supervisés, suivi d’un ajustement fin (fine-tuning) sur une tâche cible. Nous élargissons l’échelle du pré-entraînement et proposons une recette simple que nous appelons Big Transfer (BiT). En combinant quelques composants soigneusement sélectionnés et en utilisant une heuristique simple pour le transfert, nous obtenons des performances solides sur plus de 20 jeux de données. BiT se distingue par des résultats remarquablement robustes sur une gamme étonnamment large de régimes de données — allant d’un seul exemple par classe à un million d’exemples au total. BiT atteint une précision top-1 de 87,5 % sur ILSVRC-2012, 99,4 % sur CIFAR-10 et 76,3 % sur le benchmark de tâches visuelles d’adaptation (VTAB) comprenant 19 tâches. Sur des jeux de données de petite taille, BiT obtient 76,8 % sur ILSVRC-2012 avec seulement 10 exemples par classe, et 97,0 % sur CIFAR-10 avec 10 exemples par classe. Nous menons une analyse détaillée des composants principaux qui contribuent à une performance élevée en transfert.