Transformateurs épipolaires

Une approche courante pour localiser les articulations humaines en 3D dans un cadre multi-vues synchronisé et calibré repose sur deux étapes : (1) appliquer un détecteur 2D de manière indépendante sur chaque vue afin de localiser les articulations en 2D, puis (2) effectuer une triangulation robuste à partir des détections 2D issues de chaque vue pour obtenir les positions 3D des articulations. Toutefois, à l’étape 1, le détecteur 2D est limité à traiter des cas difficiles — tels que les occlusions ou les angles de vue obliques — uniquement dans le plan 2D, sans exploiter d’information 3D. Ainsi, nous proposons un nouveau module différentiable appelé « épipolar transformer », qui permet au détecteur 2D de tirer parti de caractéristiques sensibles à la 3D afin d’améliorer l’estimation de la pose 2D. L’intuition sous-jacente est la suivante : étant donné un point p en 2D dans la vue courante, nous cherchons d’abord à identifier son point correspondant p' dans une vue voisine, puis à combiner les caractéristiques en p' avec celles en p, ce qui conduit à une caractéristique en p sensibilisée à la 3D. Inspiré par le traitement stéréo, l’épipolar transformer exploite les contraintes épipolaires et le recouvrement de caractéristiques pour estimer approximativement les caractéristiques en p'. Des expériences menées sur les jeux de données InterHand et Human3.6M montrent que notre approche améliore de manière cohérente les performances par rapport aux méthodes de référence. Plus précisément, dans le cas où aucune donnée externe n’est utilisée, notre modèle sur Human3.6M, entraîné avec un réseau résiduel de 50 couches (ResNet-50) et une taille d’image de 256 × 256, atteint un MPJPE de 26,9 mm, soit une amélioration de 4,23 mm par rapport à l’état de l’art.