Co-assister à des régions libres et des détections avec un plongement de caractéristiques multiplicatif multi-modal pour le réponse aux questions visuelles

Récemment, la tâche de réponse à des questions visuelles (VQA) a suscité un intérêt croissant dans le domaine de l'intelligence artificielle. Les méthodes actuelles de VQA adoptent principalement le mécanisme d'attention visuelle pour associer la question d'entrée aux régions d'image correspondantes, afin de répondre efficacement à la question. Les mécanismes d'attention visuelle basés sur des régions libres et ceux basés sur la détection sont les plus étudiés, avec les premiers portant leur attention sur des régions d'image libres et les seconds sur des boîtes de détection prédéfinies. Nous soutenons que ces deux mécanismes d'attention peuvent fournir des informations complémentaires et devraient être intégrés efficacement pour mieux résoudre le problème de VQA. Dans cet article, nous proposons un nouveau réseau neuronal profond pour VQA qui combine les deux mécanismes d'attention. Notre cadre proposé fusionne efficacement les caractéristiques provenant des régions d'image libres, des boîtes de détection et des représentations de questions par le biais d'un schéma d'incrustation de caractéristiques multimodales multiplicatives, permettant ainsi une attention conjointe aux régions d'image libres liées à la question et aux boîtes de détection pour une réponse plus précise à la question. La méthode proposée a été évaluée en détail sur deux jeux de données publiquement disponibles, COCO-QA et VQA, où elle surpassa les approches les plus avancées actuellement connues. Le code source est disponible à l'adresse suivante : https://github.com/lupantech/dual-mfa-vqa.