il y a 2 mois

Réseaux d'Attention Dual pour le Raisonnement et l'Appariement Multimodaux

Hyeonseob Nam; Jung-Woo Ha; Jeonghee Kim

Résumé

Nous proposons les Réseaux à Double Attention (DANs), qui exploitent conjointement les mécanismes d'attention visuelle et textuelle pour capturer l'interaction fine entre la vision et le langage. Les DANs portent leur attention sur des régions spécifiques dans les images et sur des mots dans le texte à travers plusieurs étapes, rassemblant ainsi des informations essentielles provenant des deux modalités. Sur la base de ce cadre, nous introduisons deux types de DANs, respectivement destinés au raisonnement multimodal et au couplage multimodal. Le modèle de raisonnement permet aux attentions visuelles et textuelles de s'influencer mutuellement pendant l'inférence collaborative, ce qui est utile pour des tâches telles que le Visual Question Answering (VQA). De plus, le modèle de couplage utilise les deux mécanismes d'attention pour évaluer la similarité entre les images et les phrases en se concentrant sur leurs sémantiques communes. Nos expériences approfondies valident l'efficacité des DANs dans la combinaison de la vision et du langage, atteignant des performances de pointe sur des benchmarks publics pour le VQA et le couplage image-texte.