HyperAIHyperAI

Command Palette

Search for a command to run...

HowTo100M : Apprendre une plongée texte-vidéo en regardant cent millions de clips vidéo narratifs

Antoine Miech Dimitri Zhukov Jean-Baptiste Alayrac Makarand Tapaswi Ivan Laptev Josef Sivic

Résumé

L'apprentissage d'embeddings texte-vidéo nécessite généralement un ensemble de données composé de clips vidéo avec des légendes fournies manuellement. Cependant, la création de tels ensembles de données est coûteuse et chronophage, ce qui rend difficile leur obtention à grande échelle. Dans cette étude, nous proposons une approche alternative consistant à apprendre ces embeddings à partir de données vidéo accompagnées d'annotations linguistiques naturelles sous forme de narrations automatiquement transcrites. Les contributions de ce travail sont triples. Premièrement, nous introduisons HowTo100M : un ensemble de données à grande échelle comprenant 136 millions de clips vidéo extraits de 1,22 million de vidéos instructives narées sur le web, représentant des humains effectuant et décrivant plus de 23 000 tâches visuelles différentes. Notre procédure de collecte de données est rapide, évolutrice et ne nécessite aucune annotation manuelle supplémentaire. Deuxièmement, nous montrons qu'un embedding texte-vidéo formé sur ces données conduit à des résultats d'avant-garde pour la recherche vidéo par texte et la localisation d'actions dans les ensembles de données de vidéos instructives tels que YouCook2 ou CrossTask. Enfin, nous démontrons que cet embedding se transpose bien à d'autres domaines : l'ajustement fin sur des vidéos génériques YouTube (ensemble de données MSR-VTT) et des films (ensemble de données LSMDC) surpassent les modèles formés uniquement sur ces ensembles de données. Notre ensemble de données, notre code et nos modèles seront disponibles publiquement à l'adresse suivante : www.di.ens.fr/willow/research/howto100m/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp