Suivi d'objets 3D quasi-dense à partir d'une seule caméra

Un cadre de suivi 3D fiable et précis est essentiel pour prédire les positions futures des objets environnants et planifier les actions de l’observateur dans de nombreuses applications, telles que la conduite autonome. Nous proposons un cadre capable d’associer efficacement des objets en mouvement au fil du temps et d’estimer leurs informations complètes sur les boîtes englobantes 3D à partir d’une séquence d’images 2D capturées depuis une plateforme en mouvement. L’association d’objets repose sur un apprentissage de similarité quasi-dense, qui permet d’identifier des objets sous diverses poses et angles de vue à l’aide uniquement de leurs caractéristiques d’apparence. Après une association initiale en 2D, nous exploitons par la suite des heuristiques d’ordre de profondeur des boîtes englobantes 3D pour assurer une association d’instances robuste, ainsi qu’une prédiction de trajectoire 3D basée sur le mouvement afin de réidentifier les véhicules occultés. Enfin, un module d’apprentissage de vitesse d’objets basé sur un LSTM agrège les informations de trajectoire à long terme pour une extrapolation de mouvement plus précise. Des expériences menées sur les données de simulation que nous proposons ainsi que sur des benchmarks réels, incluant les jeux de données KITTI, nuScenes et Waymo, démontrent que notre cadre de suivi offre une association et un suivi d’objets robustes dans des scénarios de conduite urbaine. Sur le benchmark ouvert Waymo, nous établissons la première référence basée uniquement sur la caméra dans les défis de suivi 3D et de détection 3D. Notre pipeline de suivi 3D quasi-dense atteint des améliorations remarquables sur le benchmark nuScenes 3D tracking, avec une précision de suivi près de cinq fois supérieure à celle de la meilleure soumission basée uniquement sur la vision parmi toutes les méthodes publiées. Notre code, les données et les modèles entraînés sont disponibles à l’adresse suivante : https://github.com/SysCV/qd-3dt.