FairMOT : Sur l'équité détection et ré-identification dans le suivi multiple d'objets

Le suivi d’objets multiples (MOT) constitue un problème fondamental en vision par ordinateur, aux applications très étendues. Formuler le MOT comme un apprentissage multi-tâches combinant la détection d’objets et la reconnaissance d’identité (re-ID) au sein d’un même réseau est particulièrement attrayant, car cela permet une optimisation conjointe des deux tâches tout en offrant une efficacité computationnelle élevée. Toutefois, nous constatons que ces deux tâches ont tendance à se concurrencer mutuellement, un phénomène qui doit être soigneusement traité. En particulier, les travaux antérieurs considèrent généralement la re-ID comme une tâche secondaire, dont la précision est fortement affectée par la tâche primaire de détection. En conséquence, le réseau développe un biais en faveur de la détection, ce qui n’est pas équitable envers la tâche de re-ID. Pour résoudre ce problème, nous proposons une approche simple mais efficace, nommée FairMOT, basée sur l’architecture de détection d’objets sans ancres, CenterNet. Il convient de noter qu’il ne s’agit pas d’une combinaison naïve de CenterNet et de re-ID. Au contraire, nous introduisons une série de conceptions détaillées, soigneusement élaborées à partir d’études empiriques approfondies, et essentielles pour obtenir de bons résultats en suivi. L’approche ainsi conçue atteint une haute précision à la fois pour la détection et le suivi. Elle dépasse significativement les méthodes de pointe sur plusieurs jeux de données publics. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/ifzhang/FairMOT.