Politique spatiale : orienter la manipulation robotique visuomotrice par une modélisation et un raisonnement sensibles à l'espace

Les modèles incarnés hiérarchiques centrés sur la vision ont démontré un fort potentiel pour le contrôle robotique à long terme. Toutefois, les méthodes existantes manquent de capacités de conscience spatiale, ce qui limite leur efficacité à relier les plans visuels à un contrôle exécutable dans des environnements complexes. Pour remédier à ce problème, nous proposons Spatial Policy (SP), un cadre unifié pour la manipulation robotique visuomotrice prenant explicitement en compte le spatial, fondé sur une modélisation et un raisonnement spatiaux. Plus précisément, nous concevons d’abord un module de génération vidéo incarnée conditionné spatialement, permettant de modéliser des prédictions guidées par l’espace à l’aide d’un tableau de plan spatial. Ensuite, nous proposons un module de prédiction d’actions basé sur l’espace, capable d’inférer des actions exécutables de manière coordonnée. Enfin, nous introduisons une politique de rétroaction par raisonnement spatial, permettant d’affiner le tableau de plan spatial par un replanning en deux étapes. Des expériences étendues montrent que SP surpasse significativement les états de l’art, réalisant une amélioration moyenne de 33,0 % par rapport au meilleur modèle de référence. Avec un taux de réussite moyen de 86,7 % sur 11 tâches diverses, SP améliore substantiellement la faisabilité des modèles incarnés pour les applications de contrôle robotique. Le code source et les points de contrôle sont disponibles à l’adresse suivante : [https://...].