il y a 6 mois

Résumé

La plupart des modèles de génération de légendes vidéo sont conçus pour traiter des extraits vidéo courts, d'une durée de quelques secondes, et produire des descriptions textuelles de concepts visuels de bas niveau (par exemple, objets, scènes, actions élémentaires). Toutefois, la plupart des vidéos du monde réel durent plusieurs minutes voire des heures, et présentent une structure hiérarchique complexe s'étendant sur différentes granularités temporelles. Nous proposons Video ReCap, un modèle récursif de génération de légendes vidéo capable de traiter des entrées vidéo de longueurs très variées (de 1 seconde à 2 heures) et de produire des légendes à plusieurs niveaux hiérarchiques. L’architecture récursive vidéo-langage exploite la synergie entre les différentes hiérarchies vidéo et permet un traitement efficace de vidéos d’une durée d’une heure. Nous utilisons un schéma d’apprentissage par curriculum pour apprendre la structure hiérarchique des vidéos, en commençant par des légendes au niveau de clips décrivant des actions élémentaires, puis en se concentrant progressivement sur des descriptions au niveau de segments, avant de conclure par la génération de résumés pour des vidéos d’une heure. Par ailleurs, nous introduisons le jeu de données Ego4D-HCap, obtenu en enrichissant Ego4D avec 8 267 résumés vidéo à longue portée collectés manuellement. Notre modèle récursif peut générer flexiblement des légendes à différents niveaux hiérarchiques, tout en étant également utile pour d’autres tâches complexes de compréhension vidéo, telles que la Question-Réponse vidéo (VideoQA) sur EgoSchema. Les données, le code et les modèles sont disponibles à l’adresse suivante : https://sites.google.com/view/vidrecap

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Video Captioning

Traitement Vidéo

Réponse À Des Questions Visuelles

Multimodal

Vision Par Ordinateur

Tâche

Md Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Video Captioning

Traitement Vidéo

Réponse À Des Questions Visuelles

Multimodal

Vision Par Ordinateur

Tâche

Md Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Video ReCap : Résumé récursif de vidéos d'une heure | Articles | HyperAI

Command Palette

Video ReCap : Résumé récursif de vidéos d'une heure

Md Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Video ReCap : Résumé récursif de vidéos d'une heure

Md Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Video ReCap : Résumé récursif de vidéos d'une heure

Md Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters