Résumé Abstrait Multimodal pour les Vidéos How2

Dans cet article, nous étudions la synthèse abstraite pour des vidéos de domaine ouvert. Contrairement à la synthèse traditionnelle des actualités textuelles, l'objectif est moins de « compresser » les informations textuelles que de fournir un résumé textuel fluide des informations collectées et fusionnées à partir de différentes modalités sources, dans notre cas les vidéos et les transcriptions audio (ou texte). Nous montrons comment un modèle multi-source séquence-à-séquence avec une attention hiérarchique peut intégrer les informations provenant de différentes modalités dans une sortie cohérente, comparons divers modèles entraînés avec différentes modalités et présentons des expériences pilotes sur le corpus How2 de vidéos didactiques. Nous proposons également une nouvelle métrique d'évaluation (Content F1) pour la tâche de synthèse abstraite qui mesure l'adéquation sémantique plutôt que la fluidité des résumés, ce dernier aspect étant couvert par des métriques comme ROUGE et BLEU.