HyperAIHyperAI

Command Palette

Search for a command to run...

Co-assister à des régions libres et des détections avec un plongement de caractéristiques multiplicatif multi-modal pour le réponse aux questions visuelles

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

Résumé

Récemment, la tâche de réponse à des questions visuelles (VQA) a suscité un intérêt croissant dans le domaine de l'intelligence artificielle. Les méthodes actuelles de VQA adoptent principalement le mécanisme d'attention visuelle pour associer la question d'entrée aux régions d'image correspondantes, afin de répondre efficacement à la question. Les mécanismes d'attention visuelle basés sur des régions libres et ceux basés sur la détection sont les plus étudiés, avec les premiers portant leur attention sur des régions d'image libres et les seconds sur des boîtes de détection prédéfinies. Nous soutenons que ces deux mécanismes d'attention peuvent fournir des informations complémentaires et devraient être intégrés efficacement pour mieux résoudre le problème de VQA. Dans cet article, nous proposons un nouveau réseau neuronal profond pour VQA qui combine les deux mécanismes d'attention. Notre cadre proposé fusionne efficacement les caractéristiques provenant des régions d'image libres, des boîtes de détection et des représentations de questions par le biais d'un schéma d'incrustation de caractéristiques multimodales multiplicatives, permettant ainsi une attention conjointe aux régions d'image libres liées à la question et aux boîtes de détection pour une réponse plus précise à la question. La méthode proposée a été évaluée en détail sur deux jeux de données publiquement disponibles, COCO-QA et VQA, où elle surpassa les approches les plus avancées actuellement connues. Le code source est disponible à l'adresse suivante : https://github.com/lupantech/dual-mfa-vqa.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp