Détection d'objets indépendante de la classe avec un Transformers multi-modaux

Qu'est-ce qui constitue un objet ? Cette question est une préoccupation de longue date dans le domaine de la vision par ordinateur. Pour répondre à cet objectif, de nombreuses approches sans apprentissage et basées sur l'apprentissage ont été développées afin d'évaluer l'objectivité. Cependant, elles ne s'adaptent généralement pas bien aux nouveaux domaines et aux objets inédits. Dans cet article, nous soutenons que les méthodes existantes manquent d'un signal de supervision descendante gouverné par des sémantiques compréhensibles par l'homme. Pour la première fois dans la littérature, nous démontrons que les Transformers visuels multimodaux (MViT) formés avec des paires image-texte alignées peuvent effectivement combler cette lacune. Nos expériences exhaustives dans divers domaines et sur des objets inédits montrent les performances de pointe des MViTs pour localiser des objets génériques dans les images. Sur la base de l'observation que les MViTs existants n'incluent pas le traitement de caractéristiques multi-échelles et nécessitent généralement des programmes d'entraînement plus longs, nous développons une architecture MViT efficace utilisant une attention déformable multi-échelle et une fusion tardive entre vision et langage. Nous montrons l'importance des propositions MViT dans une gamme variée d'applications, notamment la détection d'objets en monde ouvert, la détection d'objets saillants et camouflés, ainsi que les tâches de détection supervisée et auto-supervisée. De plus, les MViTs peuvent générer adaptativement des propositions en réponse à une requête linguistique spécifique, offrant ainsi une interactivité améliorée. Code : \url{https://git.io/J1HPY}.