Apprentissage d’un solveur neuronal pour le suivi de plusieurs objets

Les graphes offrent une formulation naturelle du suivi d’objets multiples (Multiple Object Tracking, MOT) dans le cadre du paradigme « tracking-by-detection ». Toutefois, ils introduisent également un défi majeur pour les méthodes d’apprentissage, car la définition d’un modèle capable de fonctionner sur ce domaine structuré n’est pas triviale. En conséquence, la plupart des travaux basés sur l’apprentissage se sont concentrés sur l’apprentissage de meilleures caractéristiques pour le MOT, qu’ils utilisent ensuite avec des cadres d’optimisation bien établis. Dans ce travail, nous exploitons la formulation classique par flot de réseau du MOT afin de définir un cadre entièrement différentiable fondé sur les Réseaux d’Échange de Messages (Message Passing Networks, MPNs). En agissant directement sur le domaine graphique, notre méthode peut raisonner de manière globale sur l’ensemble des détections et prédire des solutions finales. Ainsi, nous démontrons que l’apprentissage en MOT n’a pas à être restreint à l’extraction de caractéristiques, mais peut également être appliqué à l’étape d’association des données. Nous observons une amélioration significative en termes de MOTA et IDF1 sur trois benchmarks publiques. Notre code est disponible à l’adresse suivante : https://bit.ly/motsolv.