EPro-PnP : Perspective-n-Points probabilistes généraux et bout-en-bout pour l'estimation de la pose d'objets monoculaires

La localisation d’objets 3D à partir d’une seule image RGB via le problème Perspective-n-Points (PnP) constitue un défi ancien en vision par ordinateur. Poussés par l’apprentissage profond end-to-end, les travaux récents proposent d’interpréter le PnP comme une couche différentiable, permettant ainsi d’apprendre partiellement les correspondances 2D-3D en remontant le gradient par rapport à la pose de l’objet. Toutefois, l’apprentissage de l’ensemble complet de points 2D-3D sans contrainte à partir de zéro échoue à converger avec les approches existantes, car la pose déterministe est intrinsèquement non différentiable. Dans cet article, nous proposons EPro-PnP, une couche PnP probabiliste pour une estimation de pose end-to-end générale, qui produit une distribution de pose sur la variété de SE(3), introduisant fondamentalement une généralisation du Softmax catégorique au domaine continu. Les coordonnées 2D-3D ainsi que leurs poids associés sont traités comme variables intermédiaires apprises en minimisant la divergence de Kullback-Leibler entre la distribution de pose prédite et celle cible. Ce principe sous-jacent unifie les approches existantes et s’inspire du mécanisme d’attention. EPro-PnP surpasse significativement les méthodes de référence, réduisant considérablement l’écart entre les méthodes basées sur PnP et les meilleures approches spécifiques à la tâche sur les benchmarks de estimation de pose 6D LineMOD et de détection d’objets 3D nuScenes.