HyperAIHyperAI

Command Palette

Search for a command to run...

MAST : Synthèse abstraite multimodale avec attention hiérarchique trimodale

Aman Khullar; Udit Arora

Résumé

Ce document présente MAST, un nouveau modèle de synthèse textuelle abstraite multimodale qui utilise des informations provenant des trois modalités – texte, audio et vidéo – dans une vidéo multimodale. Les travaux antérieurs sur la synthèse textuelle abstraite multimodale ne s'appuyaient que sur les informations issues des modalités texte et vidéo. Nous examinons l'utilité et les défis liés à l'extraction d'informations de la modalité audio et présentons un modèle hiérarchique d'attention trimodale basé sur une séquence à séquence qui surmonte ces défis en permettant au modèle de porter davantage d'attention à la modalité texte. Sur le jeu de données How2 pour la compréhension langagière multimodale, MAST surpasses le modèle actuel de pointe (vidéo-texte) avec une amélioration de 2,51 points en termes de score F1 du contenu et de 1,00 point en termes de score Rouge-L.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MAST : Synthèse abstraite multimodale avec attention hiérarchique trimodale | Articles | HyperAI