HyperAIHyperAI
il y a 2 mois

MDETR -- Détection modulée pour la compréhension multi-modale de bout en bout

Kamath, Aishwarya ; Singh, Mannat ; LeCun, Yann ; Synnaeve, Gabriel ; Misra, Ishan ; Carion, Nicolas
MDETR -- Détection modulée pour la compréhension multi-modale de bout en bout
Résumé

Les systèmes de raisonnement multi-modaux s'appuient sur un détecteur d'objets pré-entraîné pour extraire des régions d'intérêt à partir de l'image. Cependant, ce module crucial est généralement utilisé comme une boîte noire, entraîné indépendamment de la tâche en aval et sur un vocabulaire fixe d'objets et d'attributs. Ceci rend difficile pour ces systèmes de capturer la queue longue des concepts visuels exprimés dans du texte libre. Dans cet article, nous proposons MDETR, un détecteur modulé de bout en bout qui détecte les objets dans une image conditionnée par une requête textuelle brute, telle qu'une légende ou une question. Nous utilisons une architecture basée sur des transformateurs pour raisonner conjointement sur le texte et l'image en fusionnant les deux modalités dès les premières étapes du modèle. Nous pré-entraînons le réseau sur 1,3 million de paires texte-image, extraites de jeux de données multi-modaux existants ayant une correspondance explicite entre les phrases du texte et les objets de l'image. Nous affinons ensuite l'entraînement sur plusieurs tâches en aval telles que la localisation de phrases, la compréhension d'expressions référentielles et la segmentation, obtenant des résultats à l'état de l'art sur des benchmarks populaires. Nous examinons également l'utilité de notre modèle comme détecteur d'objets sur un ensemble donné d'étiquettes lorsqu'il est affiné dans un contexte few-shot (peu d'exemples). Nous montrons que notre approche de pré-entraînement offre un moyen de gérer la queue longue des catégories d'objets qui ont très peu d'instances étiquetées. Notre méthode peut être facilement étendue pour répondre aux questions visuelles, atteignant des performances compétitives sur GQA et CLEVR. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/ashkamath/mdetr.

MDETR -- Détection modulée pour la compréhension multi-modale de bout en bout | Articles de recherche récents | HyperAI