Command Palette
Search for a command to run...
Apprentissage auto-supervisé de représentations invariantes par rapport aux tâches prétextes
Apprentissage auto-supervisé de représentations invariantes par rapport aux tâches prétextes
Ishan Misra Laurens van der Maaten
Résumé
L'objectif de l'apprentissage auto-supervisé à partir d'images consiste à construire des représentations d'images significatives sur le plan sémantique à l'aide de tâches prétextes ne nécessitant pas d'annotations sémantiques pour un grand ensemble d'images d'entraînement. De nombreuses tâches prétextes conduisent à des représentations covariantes par rapport aux transformations d'images. Nous soutenons au contraire que des représentations sémantiques devraient être invariants face à de telles transformations. Plus précisément, nous proposons une méthode nommée Apprentissage de Représentations Invariantes par Tâches Prétextes (PIRL, prononcé « pearl »), qui apprend des représentations invariants à partir de tâches prétextes. Nous utilisons PIRL avec une tâche prétexte couramment employée, consistant à résoudre des puzzles de morceaux d'images. Nous constatons que PIRL améliore considérablement la qualité sémantique des représentations d'images apprises. Notre approche établit un nouveau record sur plusieurs benchmarks populaires pour l'apprentissage auto-supervisé. Malgré son caractère non supervisé, PIRL surpasse l'apprentissage préalable supervisé dans la construction de représentations d'images pour la détection d'objets. Globalement, nos résultats démontrent le potentiel de l'apprentissage auto-supervisé de représentations d'images possédant de bonnes propriétés d'invariance.