HyperAIHyperAI
il y a 2 mois

Détection multi-modale d'objets interrogés dans des conditions réelles

Yifan Xu; Mengdan Zhang; Chaoyou Fu; Peixian Chen; Xiaoshan Yang; Ke Li; Changsheng Xu
Détection multi-modale d'objets interrogés dans des conditions réelles
Résumé

Nous présentons MQ-Det, une architecture et une stratégie d'entraînement préalable efficaces conçues pour utiliser à la fois des descriptions textuelles avec généralisation en ensemble ouvert et des exemples visuels avec une granularité de description riche comme requêtes catégorielles, c'est-à-dire la détection d'objets multimodaux (Multi-modal Queried object Detection), pour la détection dans le monde réel avec des catégories à vocabulaire ouvert et diverses granularités. MQ-Det intègre les requêtes visuelles aux détecteurs existants bien établis qui ne s'appuient que sur les requêtes linguistiques. Un module perceptor évolué, adaptable à l'échelle des classes et prêt à l'emploi, est proposé au-dessus du détecteur figé afin d'enrichir les textes catégoriels avec des informations visuelles spécifiques à chaque classe. Pour résoudre le problème d'inertie d'apprentissage posé par le détecteur figé, une stratégie de prédiction linguistique masquée conditionnée par la vision est proposée. L'architecture simple mais efficace de MQ-Det ainsi que sa conception de stratégie d'entraînement sont compatibles avec la plupart des détecteurs d'objets basés uniquement sur les requêtes linguistiques, ce qui permet une grande variété d'applications. Les résultats expérimentaux montrent que les requêtes multimodales améliorent considérablement la détection dans le monde ouvert. Par exemple, MQ-Det améliore significativement le détecteur en ensemble ouvert de pointe GLIP (+7,8 % AP) sur le benchmark LVIS grâce aux requêtes multimodales sans aucun ajustement fin en aval, et augmente en moyenne l'AP de +6,3 % sur 13 tâches en aval à faible nombre de données, avec seulement un temps supplémentaire de modulation de 3 % requis par GLIP. Le code source est disponible sur https://github.com/YifanXu74/MQ-Det.

Détection multi-modale d'objets interrogés dans des conditions réelles | Articles de recherche récents | HyperAI