HyperAIHyperAI
il y a 11 jours

Apprentissage de la dynamique visuelle à long terme avec des réseaux d’interaction de propositions de régions

Haozhi Qi, Xiaolong Wang, Deepak Pathak, Yi Ma, Jitendra Malik
Apprentissage de la dynamique visuelle à long terme avec des réseaux d’interaction de propositions de régions
Résumé

Apprendre des modèles de dynamiques à long terme est essentiel pour comprendre le bon sens physique. La plupart des approches existantes visant à apprendre des dynamiques à partir d’entrées visuelles évitent les prédictions à long terme en s’appuyant sur une re-planification rapide basée sur des modèles à court terme. Cela exige non seulement une précision extrême de ces modèles, mais limite également leur application à des tâches où un agent peut recevoir un retour continu et agir à chaque étape jusqu’à la finalisation. Dans cet article, nous visons à exploiter les principes des succès obtenus dans les tâches de reconnaissance visuelle afin de construire des représentations d’objets capables de capturer les interactions entre objets et entre objets et environnement sur de longues échelles temporelles. À cette fin, nous proposons les Réseaux d’Interaction de Propositions de Région (RPIN), qui raisonnent sur la trajectoire de chaque objet dans un espace latent de caractéristiques de propositions de région. Grâce à une représentation d’objet simple mais efficace, notre approche surpasse significativement les méthodes antérieures tant en qualité de prévision qu’en capacité de planification pour des tâches ultérieures, tout en se généralisant bien à des environnements nouveaux. Le code, les modèles pré-entraînés et des résultats visuels supplémentaires sont disponibles à l’adresse suivante : https://haozhi.io/RPIN.

Apprentissage de la dynamique visuelle à long terme avec des réseaux d’interaction de propositions de régions | Articles de recherche récents | HyperAI