EagerMOT : Suivi multi-objet 3D par fusion de capteurs

Le suivi multi-objets (MOT) permet aux robots mobiles d'effectuer une planification et une navigation de mouvements bien informées en localisant les objets environnants dans l'espace 3D et le temps. Les méthodes existantes s'appuient sur des capteurs de profondeur (par exemple, LiDAR) pour détecter et suivre les cibles dans l'espace 3D, mais uniquement jusqu'à une portée de détection limitée en raison de la rareté du signal. En revanche, les caméras fournissent un signal visuel dense et riche qui aide à localiser même les objets éloignés, mais uniquement dans le domaine des images. Dans cet article, nous proposons EagerMOT, une formulation de suivi simple qui intègre avec empressement toutes les observations d'objets disponibles provenant des deux modalités de capteurs pour obtenir une interprétation bien informée de la dynamique de la scène. Grâce aux images, nous pouvons identifier les objets entrants distants, tandis que les estimations de profondeur permettent une localisation précise des trajectoires dès que les objets entrent dans la portée du capteur de profondeur. Avec EagerMOT, nous obtenons des résultats d'état de l'art sur plusieurs tâches MOT sur les jeux de données KITTI et NuScenes. Notre code est disponible à l'adresse suivante : https://github.com/aleksandrkim61/EagerMOT.