HyperAIHyperAI

Command Palette

Search for a command to run...

Détection d'objets indépendante de la classe avec un Transformers multi-modaux

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan Rao Muhammad Anwer Ming-Hsuan Yang

Résumé

Qu'est-ce qui constitue un objet ? Cette question est une préoccupation de longue date dans le domaine de la vision par ordinateur. Pour répondre à cet objectif, de nombreuses approches sans apprentissage et basées sur l'apprentissage ont été développées afin d'évaluer l'objectivité. Cependant, elles ne s'adaptent généralement pas bien aux nouveaux domaines et aux objets inédits. Dans cet article, nous soutenons que les méthodes existantes manquent d'un signal de supervision descendante gouverné par des sémantiques compréhensibles par l'homme. Pour la première fois dans la littérature, nous démontrons que les Transformers visuels multimodaux (MViT) formés avec des paires image-texte alignées peuvent effectivement combler cette lacune. Nos expériences exhaustives dans divers domaines et sur des objets inédits montrent les performances de pointe des MViTs pour localiser des objets génériques dans les images. Sur la base de l'observation que les MViTs existants n'incluent pas le traitement de caractéristiques multi-échelles et nécessitent généralement des programmes d'entraînement plus longs, nous développons une architecture MViT efficace utilisant une attention déformable multi-échelle et une fusion tardive entre vision et langage. Nous montrons l'importance des propositions MViT dans une gamme variée d'applications, notamment la détection d'objets en monde ouvert, la détection d'objets saillants et camouflés, ainsi que les tâches de détection supervisée et auto-supervisée. De plus, les MViTs peuvent générer adaptativement des propositions en réponse à une requête linguistique spécifique, offrant ainsi une interactivité améliorée. Code : \url{https://git.io/J1HPY}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Détection d'objets indépendante de la classe avec un Transformers multi-modaux | Articles | HyperAI