Exploration des représentations cibles pour les autoencodeurs masqués

Les autoencodeurs masqués sont devenus des paradigmes de formation populaires pour l’apprentissage de représentations visuelles auto-supervisées. Ces modèles masquent aléatoirement une partie de l’entrée et reconstruisent cette portion masquée à partir de représentations cibles. Dans cet article, nous montrons d’abord qu’un choix soigneux de la représentation cible n’est pas nécessaire pour apprendre de bonnes représentations, car différentes cibles conduisent généralement à des modèles aux comportements similaires. Inspirés par cette observation, nous proposons une pipeline de distillation masquée en plusieurs étapes, en utilisant un modèle initialement aléatoire comme enseignant, ce qui nous permet d’entraîner efficacement des modèles à forte capacité sans avoir à concevoir soigneusement les représentations cibles. De manière intéressante, nous explorons également l’utilisation d’enseignants de capacité plus grande, aboutissant à des élèves distillés dotés d’une remarquable capacité de transfert. Sur diverses tâches telles que la classification, l’apprentissage par transfert, la détection d’objets et la segmentation sémantique, la méthode proposée, appelée distillation de connaissances masquée avec enseignants auto-entraînés (dBOT), dépasse de manière significative les méthodes auto-supervisées antérieures. Nous espérons que nos résultats, ainsi que la méthode proposée, inciteront la communauté à repenser le rôle des représentations cibles dans le pré-entraînement des autoencodeurs masqués. Le code et les modèles pré-entraînés sont disponibles publiquement à l’adresse suivante : https://github.com/liuxingbin/dbot.