il y a 7 mois

Résumé

Récemment, la tâche de réponse à des questions visuelles (VQA) a suscité un intérêt croissant dans le domaine de l'intelligence artificielle. Les méthodes actuelles de VQA adoptent principalement le mécanisme d'attention visuelle pour associer la question d'entrée aux régions d'image correspondantes, afin de répondre efficacement à la question. Les mécanismes d'attention visuelle basés sur des régions libres et ceux basés sur la détection sont les plus étudiés, avec les premiers portant leur attention sur des régions d'image libres et les seconds sur des boîtes de détection prédéfinies. Nous soutenons que ces deux mécanismes d'attention peuvent fournir des informations complémentaires et devraient être intégrés efficacement pour mieux résoudre le problème de VQA. Dans cet article, nous proposons un nouveau réseau neuronal profond pour VQA qui combine les deux mécanismes d'attention. Notre cadre proposé fusionne efficacement les caractéristiques provenant des régions d'image libres, des boîtes de détection et des représentations de questions par le biais d'un schéma d'incrustation de caractéristiques multimodales multiplicatives, permettant ainsi une attention conjointe aux régions d'image libres liées à la question et aux boîtes de détection pour une réponse plus précise à la question. La méthode proposée a été évaluée en détail sur deux jeux de données publiquement disponibles, COCO-QA et VQA, où elle surpassa les approches les plus avancées actuellement connues. Le code source est disponible à l'adresse suivante : https://github.com/lupantech/dual-mfa-vqa.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Réponse À Des Questions Visuelles

Multimodal

Détection D'objets

Multimodal

Vision Par Ordinateur

Tâche

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Réponse À Des Questions Visuelles

Multimodal

Détection D'objets

Multimodal

Vision Par Ordinateur

Tâche

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Co-assister à des régions libres et des détections avec un plongement de caractéristiques multiplicatif multi-modal pour le réponse aux questions visuelles

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Co-assister à des régions libres et des détections avec un plongement de caractéristiques multiplicatif multi-modal pour le réponse aux questions visuelles

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Co-assister à des régions libres et des détections avec un plongement de caractéristiques multiplicatif multi-modal pour le réponse aux questions visuelles

Pan Lu† Hongsheng Li‡∗ Wei Zhang‡ Jianyong Wang† Xiaogang Wang‡∗

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters