HyperAIHyperAI
il y a 3 mois

Video ReCap : Résumé récursif de vidéos d'une heure

Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius
Video ReCap : Résumé récursif de vidéos d'une heure
Résumé

La plupart des modèles de génération de légendes vidéo sont conçus pour traiter des extraits vidéo courts, d'une durée de quelques secondes, et produire des descriptions textuelles de concepts visuels de bas niveau (par exemple, objets, scènes, actions élémentaires). Toutefois, la plupart des vidéos du monde réel durent plusieurs minutes voire des heures, et présentent une structure hiérarchique complexe s'étendant sur différentes granularités temporelles. Nous proposons Video ReCap, un modèle récursif de génération de légendes vidéo capable de traiter des entrées vidéo de longueurs très variées (de 1 seconde à 2 heures) et de produire des légendes à plusieurs niveaux hiérarchiques. L’architecture récursive vidéo-langage exploite la synergie entre les différentes hiérarchies vidéo et permet un traitement efficace de vidéos d’une durée d’une heure. Nous utilisons un schéma d’apprentissage par curriculum pour apprendre la structure hiérarchique des vidéos, en commençant par des légendes au niveau de clips décrivant des actions élémentaires, puis en se concentrant progressivement sur des descriptions au niveau de segments, avant de conclure par la génération de résumés pour des vidéos d’une heure. Par ailleurs, nous introduisons le jeu de données Ego4D-HCap, obtenu en enrichissant Ego4D avec 8 267 résumés vidéo à longue portée collectés manuellement. Notre modèle récursif peut générer flexiblement des légendes à différents niveaux hiérarchiques, tout en étant également utile pour d’autres tâches complexes de compréhension vidéo, telles que la Question-Réponse vidéo (VideoQA) sur EgoSchema. Les données, le code et les modèles sont disponibles à l’adresse suivante : https://sites.google.com/view/vidrecap