il y a 2 mois

HowTo100M : Apprendre une plongée texte-vidéo en regardant cent millions de clips vidéo narratifs

Miech, Antoine ; Zhukov, Dimitri ; Alayrac, Jean-Baptiste ; Tapaswi, Makarand ; Laptev, Ivan ; Sivic, Josef

Résumé

L'apprentissage d'embeddings texte-vidéo nécessite généralement un ensemble de données composé de clips vidéo avec des légendes fournies manuellement. Cependant, la création de tels ensembles de données est coûteuse et chronophage, ce qui rend difficile leur obtention à grande échelle. Dans cette étude, nous proposons une approche alternative consistant à apprendre ces embeddings à partir de données vidéo accompagnées d'annotations linguistiques naturelles sous forme de narrations automatiquement transcrites. Les contributions de ce travail sont triples. Premièrement, nous introduisons HowTo100M : un ensemble de données à grande échelle comprenant 136 millions de clips vidéo extraits de 1,22 million de vidéos instructives narées sur le web, représentant des humains effectuant et décrivant plus de 23 000 tâches visuelles différentes. Notre procédure de collecte de données est rapide, évolutrice et ne nécessite aucune annotation manuelle supplémentaire. Deuxièmement, nous montrons qu'un embedding texte-vidéo formé sur ces données conduit à des résultats d'avant-garde pour la recherche vidéo par texte et la localisation d'actions dans les ensembles de données de vidéos instructives tels que YouCook2 ou CrossTask. Enfin, nous démontrons que cet embedding se transpose bien à d'autres domaines : l'ajustement fin sur des vidéos génériques YouTube (ensemble de données MSR-VTT) et des films (ensemble de données LSMDC) surpassent les modèles formés uniquement sur ces ensembles de données. Notre ensemble de données, notre code et nos modèles seront disponibles publiquement à l'adresse suivante : www.di.ens.fr/willow/research/howto100m/.