Conception d'un traqueur d'objets efficace pour un mouvement non linéaire

L’objectif du suivi d’objets multiples consiste à détecter et à suivre tous les objets présents dans une scène tout en conservant des identifiants uniques pour chacun d’eux, en associant leurs boîtes englobantes à travers les trames vidéo. Cette association repose sur le couplage des motifs de mouvement et d’apparence des objets détectés. Cette tâche est particulièrement difficile dans les scénarios impliquant des mouvements dynamiques et non linéaires. Dans cet article, nous introduisons DeepMoveSORT, un nouveau suiveur d’objets multiples soigneusement conçu spécifiquement pour de tels scénarios. En plus des méthodes classiques d’association basées sur l’apparence, nous améliorons l’association basée sur le mouvement en utilisant des filtres apprenables profonds (au lieu du filtre de Kalman le plus couramment utilisé) ainsi qu’un ensemble riche de heuristiques nouvellement proposées. Nos améliorations des méthodes d’association basées sur le mouvement sont multiples. Premièrement, nous proposons une nouvelle architecture de filtre basée sur les transformateurs, appelée TransFilter, qui utilise l’historique de mouvement d’un objet à la fois pour la prédiction du mouvement et le filtrage du bruit. Nous améliorons davantage les performances de ce filtre grâce à une gestion soigneuse de son historique de mouvement et en tenant compte du mouvement de la caméra. Deuxièmement, nous proposons un ensemble de heuristiques exploitant des indices provenant de la position, de la forme et de la confiance des boîtes englobantes détectées afin d’améliorer la performance de l’association. Notre évaluation expérimentale démontre que DeepMoveSORT surpasse les suiveurs existants dans des scénarios caractérisés par des mouvements non linéaires, dépassant les résultats de l’état de l’art sur trois jeux de données de ce type. Nous menons également une étude d’ablation approfondie afin d’évaluer les contributions de chaque composant du suiveur que nous avons proposé. D’après nos résultats, nous concluons que l’utilisation d’un filtre apprenable au lieu du filtre de Kalman, combinée à une association basée sur l’apparence, est essentielle pour obtenir de solides performances de suivi général.