HyperAIHyperAI
il y a un mois

Apprentissage non supervisé de la structure et de la dynamique des objets à partir de vidéos

Matthias Minderer; Chen Sun; Ruben Villegas; Forrester Cole; Kevin Murphy; Honglak Lee
Apprentissage non supervisé de la structure et de la dynamique des objets à partir de vidéos
Résumé

L'extraction et la prédiction de la structure et des dynamiques d'objets à partir de vidéos sans supervision constituent un défi majeur en apprentissage automatique. Pour relever ce défi, nous adoptons une représentation d'image basée sur des points clés (keypoints) et apprenons un modèle stochastique des dynamiques de ces points clés. Les futures images sont reconstruites à partir des points clés et d'une image de référence. En modélisant les dynamiques dans l'espace des coordonnées des points clés, nous parvenons à un apprentissage stable et évitons l'accumulation d'erreurs dans l'espace des pixels. Notre méthode améliore les représentations non structurées tant pour la prédiction vidéo au niveau des pixels que pour les tâches en aval nécessitant une compréhension au niveau objet des dynamiques de mouvement. Nous évaluons notre modèle sur diverses bases de données : une base de données sportive multi-agents, le jeu de données Human3.6M, et des bases de données issues de tâches de contrôle continu du DeepMind Control Suite. La représentation structurée spatialement surpassent les représentations non structurées sur une gamme de tâches liées au mouvement, telles que le suivi d'objets, la reconnaissance d'actions et la prédiction de récompenses.