Suivi multiple d'objets comme prédiction d'ID

Le suivi d'objets multiples (Multi-Object Tracking, MOT) constitue un défi persistant dans le domaine de la compréhension vidéo. Une approche naturelle et intuitive consiste à décomposer cette tâche en deux étapes : la détection d'objets et l'association. La plupart des méthodes courantes utilisent des techniques heuristiques soigneusement conçues afin de maintenir les informations de trajectoire et de calculer des matrices de coût pour l'appariement des objets. Bien que ces approches permettent d'obtenir des performances remarquables en suivi, elles nécessitent souvent une série de modifications manuelles complexes et peinent à s'adapter à des scénarios complexes. Nous pensons que les prioris manuellement définis limitent la capacité d'adaptation et de flexibilité des méthodes à apprendre des capacités optimales de suivi à partir de données spécifiques au domaine. Par conséquent, nous introduisons une nouvelle perspective qui traite le suivi d'objets multiples comme une tâche de prédiction d'identité en contexte (in-context ID Prediction), transformant ainsi l'association d'objets en une tâche entraînable de manière end-to-end. À partir de cette idée, nous proposons une méthode simple mais efficace, nommée MOTIP. Étant donné un ensemble de trajectoires portant des informations d'identité, MOTIP prédit directement les étiquettes d'identité des détections actuelles afin de réaliser le processus d'association. Sans recourir à des architectures spécifiques ou sophistiquées, notre méthode atteint des résultats de pointe sur plusieurs benchmarks en ne s'appuyant que sur des caractéristiques au niveau des objets comme indicateurs de suivi. La simplicité et les performances impressionnantes de MOTIP laissent une large place aux avancées futures, en faisant une base prometteuse pour les recherches ultérieures. Le code source et les points de contrôle sont disponibles à l'adresse suivante : https://github.com/MCG-NJU/MOTIP.