Aligner et Attenter : Résumé Multimodal avec des Pertes Contrastives Duales

L'objectif de la synthèse multimodale est d'extraire les informations les plus importantes de différentes modalités pour former des résumés de sortie. Contrairement à la synthèse unimodale, la tâche de synthèse multimodale exploite explicitement les informations croisées entre les modalités afin de générer des résumés plus fiables et de meilleure qualité. Cependant, les méthodes existantes échouent à tirer parti de la correspondance temporelle entre différentes modalités et ignorent la corrélation intrinsèque entre différents échantillons. Pour remédier à ce problème, nous présentons Align and Attend Multimodal Summarization (A2Summ), un modèle unifié basé sur le transformer qui peut aligner et porter une attention efficace aux entrées multimodales. De plus, nous proposons deux nouvelles pertes contrastives pour modéliser à la fois les corrélations inter-échantillons et intra-échantillons. Des expériences approfondies sur deux ensembles de données standard de synthèse vidéo (TVSum et SumMe) et deux ensembles de données multimodaux de synthèse (Daily Mail et CNN) démontrent la supériorité d'A2Summ, atteignant des performances de pointe sur tous les ensembles de données. En outre, nous avons collecté un ensemble de données multimodal à grande échelle appelé BLiSS, qui contient des vidéos en direct et des textes transcrits avec des résumés annotés. Notre code et notre ensemble de données sont librement accessibles à l'adresse ~\url{https://boheumd.github.io/A2Summ/}.