HyperAIHyperAI
il y a 3 mois

Réseaux Siamese masqués pour un apprentissage efficace en label

Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas
Réseaux Siamese masqués pour un apprentissage efficace en label
Résumé

Nous proposons Masked Siamese Networks (MSN), un cadre d'apprentissage auto-supervisé destiné à l'apprentissage de représentations d'images. Notre approche consiste à aligner la représentation d'une vue d'une image comprenant des patches aléatoirement masqués sur celle de l'image d'origine non masquée. Cette stratégie d'entraînement auto-supervisé s'avère particulièrement scalable lorsqu'elle est appliquée aux Vision Transformers, car seuls les patches non masqués sont traités par le réseau. En conséquence, les MSN améliorent la scalabilité des architectures à embarquement conjoint, tout en produisant des représentations de haut niveau sémantique, performantes sur des tâches de classification d'images à faible nombre d'exemples étiquetés. Par exemple, sur ImageNet-1K, avec seulement 5 000 images étiquetées, notre modèle MSN de base atteint une précision top-1 de 72,4 %, et avec 1 % des étiquettes d'ImageNet-1K, nous obtenons une précision top-1 de 75,7 %, établissant ainsi un nouveau record d'état de l'art pour l'apprentissage auto-supervisé sur cette référence. Notre code est disponible publiquement.