HyperAIHyperAI
il y a 2 mois

Modèles d'Attention d'Ordre Élevé pour la Réponse à des Questions Visuelles

Idan Schwartz; Alexander G. Schwing; Tamir Hazan
Modèles d'Attention d'Ordre Élevé pour la Réponse à des Questions Visuelles
Résumé

La quête d'algorithmes permettant des capacités cognitives est une partie importante de l'apprentissage automatique. Un trait commun à de nombreuses tâches cognitives récemment étudiées est qu'elles prennent en compte différentes modalités de données, telles que les entrées visuelles et textuelles. Dans cet article, nous proposons un nouveau mécanisme d'attention généralement applicable qui apprend les corrélations d'ordre supérieur entre diverses modalités de données. Nous montrons que ces corrélations d'ordre supérieur dirigent efficacement l'attention appropriée vers les éléments pertinents dans les différentes modalités de données nécessaires pour résoudre la tâche conjointe. Nous démontrons l'efficacité de notre mécanisme d'attention d'ordre supérieur sur la tâche de réponse aux questions visuelles (VQA), où nous obtenons des performances au niveau de l'état de l'art sur le jeu de données VQA standard.