Masquage de caractéristiques contrastives pour un vision Transformer à vocabulaire ouvert

Nous présentons le Contrasting Feature Masking Vision Transformer (CFM-ViT), une méthode de pré-entraînement image-texte permettant d’apprendre simultanément des représentations à l’échelle de l’image et à l’échelle des régions pour la détection d’objets à vocabulaire ouvert (OVD). Notre approche intègre l’objectif du décodeur auto-encodé masqué (MAE) dans l’objectif d’apprentissage contrastif afin d’améliorer les représentations pour les tâches de localisation. Contrairement au MAE classique, nous effectuons la reconstruction dans l’espace d’embedding joint image-texte, plutôt que dans l’espace pixel, ce qui permet au modèle d’apprendre de manière plus efficace les sémantiques à l’échelle des régions. En outre, nous introduisons une technique appelée Positional Embedding Dropout (PED), qui atténue les variations d’échelle entre le pré-entraînement image-texte et le finetuning de détection en supprimant aléatoirement certaines embeddings de position durant le pré-entraînement. Cette stratégie améliore les performances de détection et permet d’utiliser un noyau ViT gelé comme classificateur de régions, empêchant ainsi l’oubli des connaissances à vocabulaire ouvert pendant le finetuning. Sur le benchmark LVIS pour la détection à vocabulaire ouvert, CFM-ViT atteint un score de 33,9 AP$r$, surpassant la meilleure méthode existante de 7,6 points, tout en offrant une meilleure transférabilité en détection zéro-shot. Enfin, CFM-ViT acquiert également des représentations fortes à l’échelle de l’image, dépassant l’état de l’art sur 8 des 12 métriques du benchmark de récupération image-texte zéro-shot.