HyperAIHyperAI

Command Palette

Search for a command to run...

Video ReCap : Résumé récursif de vidéos d'une heure

Md Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius

Résumé

La plupart des modèles de génération de légendes vidéo sont conçus pour traiter des extraits vidéo courts, d'une durée de quelques secondes, et produire des descriptions textuelles de concepts visuels de bas niveau (par exemple, objets, scènes, actions élémentaires). Toutefois, la plupart des vidéos du monde réel durent plusieurs minutes voire des heures, et présentent une structure hiérarchique complexe s'étendant sur différentes granularités temporelles. Nous proposons Video ReCap, un modèle récursif de génération de légendes vidéo capable de traiter des entrées vidéo de longueurs très variées (de 1 seconde à 2 heures) et de produire des légendes à plusieurs niveaux hiérarchiques. L’architecture récursive vidéo-langage exploite la synergie entre les différentes hiérarchies vidéo et permet un traitement efficace de vidéos d’une durée d’une heure. Nous utilisons un schéma d’apprentissage par curriculum pour apprendre la structure hiérarchique des vidéos, en commençant par des légendes au niveau de clips décrivant des actions élémentaires, puis en se concentrant progressivement sur des descriptions au niveau de segments, avant de conclure par la génération de résumés pour des vidéos d’une heure. Par ailleurs, nous introduisons le jeu de données Ego4D-HCap, obtenu en enrichissant Ego4D avec 8 267 résumés vidéo à longue portée collectés manuellement. Notre modèle récursif peut générer flexiblement des légendes à différents niveaux hiérarchiques, tout en étant également utile pour d’autres tâches complexes de compréhension vidéo, telles que la Question-Réponse vidéo (VideoQA) sur EgoSchema. Les données, le code et les modèles sont disponibles à l’adresse suivante : https://sites.google.com/view/vidrecap


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Video ReCap : Résumé récursif de vidéos d'une heure | Articles | HyperAI