Fusion de détecteurs de tête et de corps entier pour le suivi multi-objet

Pour suivre toutes les personnes dans une scène, le paradigme de suivi par détection s'est avéré être une approche très efficace. Cependant, se fier uniquement à un seul détecteur est également une limitation majeure, car des informations utiles de l'image pourraient être ignorées. Par conséquent, cette étude montre comment fusionner deux détecteurs au sein d'un système de suivi. Pour obtenir les trajectoires, nous proposons de formuler le suivi comme un problème d'étiquetage de graphes pondérés, ce qui conduit à un programme quadratique binaire. Étant donné que ces problèmes sont NP-difficiles, leur solution ne peut être qu'approximée. Sur la base de l'algorithme de Frank-Wolfe, nous présentons un nouveau solveur essentiel pour traiter ces problèmes difficiles. Une évaluation du suivi piéton est fournie pour plusieurs scénarios, montrant des résultats supérieurs à ceux obtenus avec un seul détecteur et des solveurs QP standards. Enfin, notre traceur occupe la 2e place sur le benchmark MOT16 et la 1ère place sur le nouveau benchmark MOT17, surpassant plus de 90 traceurs.