HyperAIHyperAI
il y a 2 mois

Apprentissage non supervisé à partir de vidéos d'instructions narrées

Jean-Baptiste Alayrac; Piotr Bojanowski; Nishant Agrawal; Josef Sivic; Ivan Laptev; Simon Lacoste-Julien
Apprentissage non supervisé à partir de vidéos d'instructions narrées
Résumé

Nous abordons le problème de l'apprentissage automatique des principales étapes nécessaires pour accomplir une tâche donnée, comme changer un pneu de voiture, à partir d'une série de vidéos d'instructions narées. Les contributions de cet article sont triples. Premièrement, nous développons une nouvelle approche d'apprentissage non supervisé qui tire parti de la nature complémentaire de la vidéo d'entrée et du récit associé. La méthode résout deux problèmes de clustering, l'un dans le texte et l'autre dans la vidéo, appliqués l'un après l'autre et liés par des contraintes conjointes afin d'obtenir une seule séquence cohérente d'étapes dans les deux modalités. Deuxièmement, nous collectons et annotons un nouveau jeu de données difficile composé de vidéos d'instructions réelles extraites d'Internet. Ce jeu de données contient environ 800 000 images pour cinq tâches différentes impliquant des interactions complexes entre personnes et objets, capturées dans divers environnements intérieurs et extérieurs. Troisièmement, nous démontrons expérimentalement que la méthode proposée peut découvrir automatiquement, de manière non supervisée, les principales étapes pour réaliser la tâche et localiser ces étapes dans les vidéos d'entrée.

Apprentissage non supervisé à partir de vidéos d'instructions narrées | Articles de recherche récents | HyperAI