HyperAIHyperAI

Command Palette

Search for a command to run...

Captioning vidéo dense multimodal

Vladimir Iashin Esa Rahtu

Résumé

La génération de légendes denses pour vidéos consiste à localiser des événements intéressants dans une vidéo non tronquée et à produire une description textuelle (légende) pour chacun de ces événements. La plupart des travaux antérieurs sur la génération de légendes denses se fondent exclusivement sur des informations visuelles, en ignorant complètement la piste audio. Or, l’audio, et plus particulièrement le discours, constitue un indicateur essentiel pour un observateur humain afin de comprendre un environnement. Dans cet article, nous proposons une nouvelle approche de génération de légendes denses capable d’utiliser un nombre quelconque de modalités pour décrire les événements. Plus précisément, nous montrons comment les modalités audio et de parole peuvent améliorer un modèle de génération de légendes denses. Nous appliquons un système de reconnaissance automatique de la parole (ASR) afin d’obtenir une description textuelle temporellement alignée du discours (similaire aux sous-titres), que nous traitons comme une entrée distincte aux côtés des images de la vidéo et de la piste audio correspondante. Nous formulons la tâche de génération de légendes comme un problème de traduction automatique et utilisons l’architecture récemment proposée Transformer pour transformer les données multimodales en descriptions textuelles. Nous démontrons les performances de notre modèle sur le jeu de données ActivityNet Captions. Des études d’ablation indiquent une contribution significative des composants audio et de parole, suggérant que ces modalités contiennent des informations complémentaires substantielles par rapport aux images vidéo. En outre, nous fournissons une analyse approfondie des résultats sur ActivityNet Captions en exploitant les balises de catégorie issues des vidéos YouTube originales. Le code source est disponible publiquement : github.com/v-iashin/MDVC


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Captioning vidéo dense multimodal | Articles | HyperAI