HyperAIHyperAI

Command Palette

Search for a command to run...

Masquage de caractéristiques contrastives pour un vision Transformer à vocabulaire ouvert

Dahun Kim Anelia Angelova Weicheng Kuo

Résumé

Nous présentons le Contrasting Feature Masking Vision Transformer (CFM-ViT), une méthode de pré-entraînement image-texte permettant d’apprendre simultanément des représentations à l’échelle de l’image et à l’échelle des régions pour la détection d’objets à vocabulaire ouvert (OVD). Notre approche intègre l’objectif du décodeur auto-encodé masqué (MAE) dans l’objectif d’apprentissage contrastif afin d’améliorer les représentations pour les tâches de localisation. Contrairement au MAE classique, nous effectuons la reconstruction dans l’espace d’embedding joint image-texte, plutôt que dans l’espace pixel, ce qui permet au modèle d’apprendre de manière plus efficace les sémantiques à l’échelle des régions. En outre, nous introduisons une technique appelée Positional Embedding Dropout (PED), qui atténue les variations d’échelle entre le pré-entraînement image-texte et le finetuning de détection en supprimant aléatoirement certaines embeddings de position durant le pré-entraînement. Cette stratégie améliore les performances de détection et permet d’utiliser un noyau ViT gelé comme classificateur de régions, empêchant ainsi l’oubli des connaissances à vocabulaire ouvert pendant le finetuning. Sur le benchmark LVIS pour la détection à vocabulaire ouvert, CFM-ViT atteint un score de 33,9 APrrr, surpassant la meilleure méthode existante de 7,6 points, tout en offrant une meilleure transférabilité en détection zéro-shot. Enfin, CFM-ViT acquiert également des représentations fortes à l’échelle de l’image, dépassant l’état de l’art sur 8 des 12 métriques du benchmark de récupération image-texte zéro-shot.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Masquage de caractéristiques contrastives pour un vision Transformer à vocabulaire ouvert | Articles | HyperAI