Réseaux Siamese masqués pour un apprentissage efficace en label

Nous proposons Masked Siamese Networks (MSN), un cadre d'apprentissage auto-supervisé destiné à l'apprentissage de représentations d'images. Notre approche consiste à aligner la représentation d'une vue d'une image comprenant des patches aléatoirement masqués sur celle de l'image d'origine non masquée. Cette stratégie d'entraînement auto-supervisé s'avère particulièrement scalable lorsqu'elle est appliquée aux Vision Transformers, car seuls les patches non masqués sont traités par le réseau. En conséquence, les MSN améliorent la scalabilité des architectures à embarquement conjoint, tout en produisant des représentations de haut niveau sémantique, performantes sur des tâches de classification d'images à faible nombre d'exemples étiquetés. Par exemple, sur ImageNet-1K, avec seulement 5 000 images étiquetées, notre modèle MSN de base atteint une précision top-1 de 72,4 %, et avec 1 % des étiquettes d'ImageNet-1K, nous obtenons une précision top-1 de 75,7 %, établissant ainsi un nouveau record d'état de l'art pour l'apprentissage auto-supervisé sur cette référence. Notre code est disponible publiquement.