Estimation de la pose caméra-robot sans marqueur par transfert simulé-réel auto-supervisé

La résolution de la pose caméra-robot est une exigence fondamentale pour le contrôle des robots basé sur la vision, et c'est un processus qui nécessite des efforts considérables et une grande précision. Les approches traditionnelles requièrent la modification du robot par l'ajout de marqueurs, tandis que les méthodes ultérieures basées sur l'apprentissage profond ont permis l'extraction de caractéristiques sans marqueurs. Les méthodes d'apprentissage profond courantes n'utilisent que des données synthétiques et s'appuient sur la randomisation de domaine pour combler le fossé entre simulation et réalité, car l'acquisition d'annotations 3D est très laborieuse. Dans cette étude, nous dépassons les limitations liées aux annotations 3D pour les données réelles. Nous proposons un cadre de prédiction de pose intégrée (end-to-end) capable de calibrer en ligne la caméra au robot, ainsi qu'une méthode d'entraînement auto-supervisée pour élargir l'entraînement à des données réelles non étiquetées. Notre cadre combine l'apprentissage profond et la vision géométrique pour résoudre la pose du robot, et le pipeline est entièrement différentiable. Pour entraîner le réseau de prédiction de pose caméra-robot (CtRNet), nous utilisons la segmentation du premier plan et le rendu différentiable pour une auto-supervision au niveau des images. La prédiction de pose est visualisée à travers un moteur de rendu, et la perte d'image par rapport à l'image d'entrée est rétropropagée pour entraîner le réseau neuronal. Nos résultats expérimentaux sur deux jeux de données réels publics confirment l'efficacité de notre approche par rapport aux travaux existants. Nous avons également intégré notre cadre dans un système de commande visuelle pour démontrer le potentiel d'une estimation précise en temps réel de la pose du robot pour les tâches d'automatisation.