HyperAIHyperAI
il y a 17 jours

Vision géométrique apprenable en bout à bout par rétropropagation de l'optimisation PnP

Bo Chen, Alvaro Parra, Jiewei Cao, Nan Li, Tat-Jun Chin
Vision géométrique apprenable en bout à bout par rétropropagation de l'optimisation PnP
Résumé

Les réseaux profonds excellent dans l’apprentissage de motifs à partir de grandes quantités de données. D’un autre côté, de nombreuses tâches de vision géométrique s’expriment naturellement comme des problèmes d’optimisation. Pour combiner de manière fluide l’apprentissage profond et la vision géométrique, il est essentiel de réaliser l’apprentissage et l’optimisation géométrique de manière end-to-end. Dans cette optique, nous proposons BPnP, un nouveau module de réseau qui propage les gradients à travers un solveur Perspective-n-Points (PnP) afin de guider la mise à jour des paramètres d’un réseau neuronal. Fondé sur la différentiation implicite, nous démontrons que les gradients d’un solveur PnP « auto-contenu » peuvent être calculés de manière précise et efficace, comme si le bloc d’optimisation était une fonction différentiable. Nous validons BPnP en l’intégrant dans un modèle profond capable d’apprendre simultanément les paramètres intrinsèques de la caméra, les paramètres extrinsèques (poses) et la structure 3D à partir d’un ensemble d’apprentissage. En outre, nous développons une chaîne d’entraînement end-to-end pour l’estimation de la pose d’objets, qui atteint une précision supérieure en combinant des pertes basées sur des cartes de chaleur de caractéristiques avec des erreurs de réprojection 2D-3D. Étant donné que notre approche peut être étendue à d’autres problèmes d’optimisation, nos travaux ouvrent la voie à une vision géométrique apprenable selon une démarche rigoureuse. Notre implémentation de BPnP sous PyTorch est disponible à l’adresse http://github.com/BoChenYS/BPnP.