Suivi de points 3D à vue multiple

Nous introduisons le premier suiveur 3D à points multi-vues fondé sur les données, conçu pour suivre des points arbitraires dans des scènes dynamiques à l’aide de plusieurs vues caméra. Contrairement aux méthodes existantes basées sur une seule caméra, qui peinent à surmonter les ambiguïtés de profondeur et les occlusions, ou aux approches multi-caméras antérieures nécessitant plus de 20 capteurs et une optimisation fastidieuse par séquence, notre modèle à propagation directe prédit directement les correspondances 3D en utilisant un nombre pratique de caméras (par exemple, quatre), permettant un suivi en temps réel robuste et précis. Étant donné des poses caméra connues ainsi qu’une profondeur multi-vues issue de capteurs ou estimée, notre suiveur fusionne les caractéristiques issues des différentes vues en un nuage de points unifié, puis applique une corrélation par plus proches voisins (k-nn) combinée à une mise à jour basée sur un transformateur, afin d’estimer de manière fiable les correspondances 3D à longue portée, même en cas d’occlusion. Nous entraînons notre modèle sur 5 000 séquences synthétiques multi-vues issues de la base Kubric, et évaluons ses performances sur deux benchmarks réels : Panoptic Studio et DexYCB, obtenant des erreurs médianes de trajectoire de 3,1 cm et 2,0 cm, respectivement. Notre méthode se généralise efficacement à diverses configurations de caméras (de 1 à 8 vues), avec des points de vue variés et des durées vidéo allant de 24 à 150 images. En publiant notre suiveur ainsi que les jeux de données d’entraînement et d’évaluation, nous visons à établir une nouvelle référence pour la recherche en suivi 3D multi-vues et à fournir un outil pratique pour des applications réelles. La page du projet est disponible à l’adresse suivante : [URL].