HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux de Attention Empilés pour le Questionnement sur les Images

Zichao Yang Xiaodong He Jianfeng Gao Li Deng Alex Smola

Résumé

Ce document présente les réseaux d'attention empilés (SANs) qui apprennent à répondre à des questions en langage naturel à partir d'images. Les SANs utilisent la représentation sémantique d'une question comme requête pour rechercher les régions dans une image qui sont liées à la réponse. Nous soutenons que le questionnement visuel (QA) sur des images nécessite souvent plusieurs étapes de raisonnement. Par conséquent, nous avons développé un SAN multicouche dans lequel nous interrogeons l'image plusieurs fois pour inférer progressivement la réponse. Des expériences menées sur quatre ensembles de données QA d'images montrent que les SANs proposés surpassent significativement les approches précédentes de pointe. La visualisation des couches d'attention illustre le processus par lequel le SAN localise, couche par couche, les indices visuels pertinents conduisant à la réponse à la question.Note : - "stacked attention networks" est traduit par "réseaux d'attention empilés" (SANs).- "image question answering" est traduit par "questionnement visuel sur des images" (QA).- Les termes techniques tels que "ensembles de données", "couches d'attention" et "représentation sémantique" sont traduits selon leur usage courant en français dans le domaine scientifique et technologique.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseaux de Attention Empilés pour le Questionnement sur les Images | Articles | HyperAI