Bootstrap your own latent : Une nouvelle approche de l'apprentissage auto-supervisé

Nous présentons Bootstrap Your Own Latent (BYOL), une nouvelle approche d'apprentissage de représentations d'images en auto-supervision. BYOL repose sur deux réseaux neuronaux, appelés réseau en ligne et réseau cible, qui interagissent et apprennent l'un de l'autre. À partir d'une vue augmentée d'une image, nous formons le réseau en ligne à prédire la représentation du réseau cible de la même image sous une autre vue augmentée. En même temps, nous mettons à jour le réseau cible avec une moyenne mobile lente du réseau en ligne. Alors que les méthodes de pointe actuelles s'appuient sur des paires négatives, BYOL atteint un nouveau niveau de performance sans leur utilisation. BYOL obtient une précision de classification top-1 de 74,3 % sur ImageNet en utilisant une évaluation linéaire avec une architecture ResNet-50 et 79,6 % avec un ResNet plus grand. Nous démontrons que BYOL performe au moins aussi bien, voire mieux, que l'état actuel de l'art sur les benchmarks de transfert et d'apprentissage semi-supervisé. Notre implémentation et nos modèles pré-entraînés sont disponibles sur GitHub.