Une étude à grande échelle sur l'apprentissage des représentations avec le benchmark d'adaptation de tâches visuelles

L’apprentissage de représentations promet de débloquer le deep learning pour la longue traîne des tâches visuelles, sans recourir à des jeux de données étiquetés coûteux. Pourtant, l’absence d’un protocole d’évaluation unifié pour les représentations visuelles générales freine les progrès. Les protocoles courants sont souvent trop restrictifs (classification linéaire), limités en diversité (ImageNet, CIFAR, Pascal-VOC) ou seulement faiblement corrélés à la qualité des représentations (ELBO, erreur de reconstruction). Nous présentons le Visual Task Adaptation Benchmark (VTAB), qui définit une bonne représentation comme celle qui s’adapte efficacement à des tâches diverses et inconnues, avec peu d’exemples. Grâce à VTAB, nous menons une étude à grande échelle sur de nombreux algorithmes populaires d’apprentissage de représentations disponibles publiquement. Nous contrôlons soigneusement les biais tels que l’architecture ou le budget d’optimisation. Nous abordons des questions telles que : Quelle est l’efficacité des représentations ImageNet au-delà des jeux de données naturels standards ? Comment se comparent les représentations apprises par des modèles génératifs et discriminatifs ? Dans quelle mesure l’auto-supervision peut-elle remplacer les étiquettes ? Et, à quel point sommes-nous proches d’atteindre des représentations visuelles générales ?