HyperAIHyperAI
il y a 2 mois

MAST : Synthèse abstraite multimodale avec attention hiérarchique trimodale

Aman Khullar; Udit Arora
MAST : Synthèse abstraite multimodale avec attention hiérarchique trimodale
Résumé

Ce document présente MAST, un nouveau modèle de synthèse textuelle abstraite multimodale qui utilise des informations provenant des trois modalités – texte, audio et vidéo – dans une vidéo multimodale. Les travaux antérieurs sur la synthèse textuelle abstraite multimodale ne s'appuyaient que sur les informations issues des modalités texte et vidéo. Nous examinons l'utilité et les défis liés à l'extraction d'informations de la modalité audio et présentons un modèle hiérarchique d'attention trimodale basé sur une séquence à séquence qui surmonte ces défis en permettant au modèle de porter davantage d'attention à la modalité texte. Sur le jeu de données How2 pour la compréhension langagière multimodale, MAST surpasses le modèle actuel de pointe (vidéo-texte) avec une amélioration de 2,51 points en termes de score F1 du contenu et de 1,00 point en termes de score Rouge-L.

MAST : Synthèse abstraite multimodale avec attention hiérarchique trimodale | Articles de recherche récents | HyperAI