il y a 17 jours

VideoXum : Résumé multimodal visuel et textuel des vidéos

Jingyang Lin, Hang Hua, Ming Chen, Yikang Li, Jenhao Hsiao, Chiuman Ho, Jiebo Luo

Résumé

La synthèse vidéo vise à extraire les informations les plus pertinentes d'une vidéo source afin de produire soit un extrait vidéo raccourci, soit un récit textuel. Traditionnellement, des méthodes différentes ont été proposées selon que la sortie soit une vidéo ou un texte, ignorant ainsi la corrélation entre ces deux tâches sémantiquement liées qu sont la synthèse visuelle et la synthèse textuelle. Nous proposons une nouvelle tâche conjointe de synthèse vidéo et textuelle. L'objectif est de générer à partir d'une vidéo longue à la fois un extrait vidéo raccourci et un résumé textuel correspondant, désignés collectivement comme un résumé multimodal. L'extrait vidéo généré et les récits textuels doivent être sémantiquement bien alignés. À cette fin, nous construisons d'abord un grand jeu de données annoté par des humains — VideoXum (X désigne différentes modalités), réannoté à partir d'ActivityNet. Après avoir filtré les vidéos ne répondant pas aux critères de longueur, 14 001 vidéos longues restent dans notre nouveau jeu de données. Chaque vidéo de ce jeu de données réannoté dispose d’un résumé vidéo annoté par des humains ainsi que d’un résumé narratif correspondant. Ensuite, nous concevons un nouveau modèle end-to-end — VTSUM-BILP — afin de relever les défis posés par cette tâche proposée. Par ailleurs, nous proposons une nouvelle métrique appelée VT-CLIPScore pour évaluer la cohérence sémantique du résumé multimodal. Le modèle proposé obtient des performances prometteuses sur cette nouvelle tâche et établit une référence pour les recherches futures.