HyperAIHyperAI

Command Palette

Search for a command to run...

VideoXum : Résumé multimodal visuel et textuel des vidéos

Jingyang Lin Hang Hua Ming Chen Yikang Li Jenhao Hsiao Chiuman Ho Jiebo Luo

Résumé

La synthèse vidéo vise à extraire les informations les plus pertinentes d'une vidéo source afin de produire soit un extrait vidéo raccourci, soit un récit textuel. Traditionnellement, des méthodes différentes ont été proposées selon que la sortie soit une vidéo ou un texte, ignorant ainsi la corrélation entre ces deux tâches sémantiquement liées qu sont la synthèse visuelle et la synthèse textuelle. Nous proposons une nouvelle tâche conjointe de synthèse vidéo et textuelle. L'objectif est de générer à partir d'une vidéo longue à la fois un extrait vidéo raccourci et un résumé textuel correspondant, désignés collectivement comme un résumé multimodal. L'extrait vidéo généré et les récits textuels doivent être sémantiquement bien alignés. À cette fin, nous construisons d'abord un grand jeu de données annoté par des humains — VideoXum (X désigne différentes modalités), réannoté à partir d'ActivityNet. Après avoir filtré les vidéos ne répondant pas aux critères de longueur, 14 001 vidéos longues restent dans notre nouveau jeu de données. Chaque vidéo de ce jeu de données réannoté dispose d’un résumé vidéo annoté par des humains ainsi que d’un résumé narratif correspondant. Ensuite, nous concevons un nouveau modèle end-to-end — VTSUM-BILP — afin de relever les défis posés par cette tâche proposée. Par ailleurs, nous proposons une nouvelle métrique appelée VT-CLIPScore pour évaluer la cohérence sémantique du résumé multimodal. Le modèle proposé obtient des performances prometteuses sur cette nouvelle tâche et établit une référence pour les recherches futures.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VideoXum : Résumé multimodal visuel et textuel des vidéos | Articles | HyperAI