Comment Former Votre Suiveur Profond à Multiple Objets

La tendance récente en matière de suivi multi-objets basé sur la vision (MOT) vise à exploiter la puissance représentative de l'apprentissage profond pour apprendre conjointement à détecter et à suivre les objets. Cependant, les méthodes existantes n'entraînent que certains sous-modules en utilisant des fonctions de perte qui ne sont souvent pas corrélées avec les mesures d'évaluation du suivi établies, telles que la précision du suivi multi-objets (MOTA) et la précision (MOTP). Étant donné que ces mesures ne sont pas différentiables, le choix de fonctions de perte appropriées pour l'entraînement intégral des méthodes de suivi multi-objets reste un problème de recherche ouvert. Dans cet article, nous comblons cette lacune en proposant une approximation différentiable de MOTA et MOTP, que nous combinons dans une fonction de perte adaptée à l'entraînement intégral des trackers multi-objets profonds. Un élément clé est notre proposition d'un module Deep Hungarian Net (DHN) qui approche l'algorithme d'appariement hongrois. Le DHN permet d'estimer la correspondance entre les trajectoires d'objets et les objets véritables pour calculer des approximations différentiables de MOTA et MOTP, qui sont ensuite utilisées pour optimiser directement les trackers profonds. Nous démontrons expérimentalement que le cadre différentiable proposé améliore les performances des trackers multi-objets existants, et nous établissons un nouveau standard sur le banc d'essai MOTChallenge. Notre code est disponible au public sur https://github.com/yihongXU/deepMOT.