Suivi de plusieurs objets à partir de l'apparence par clustering hiérarchique de tracklets

Les approches actuelles en suivi d’objets multiples (Multiple Object Tracking, MOT) reposent sur la cohérence spatio-temporelle entre les détections combinée à l’apparence des objets pour établir des correspondances entre les objets de cadres consécutifs. Dans ce travail, nous explorons une méthode de MOT fondée principalement sur l’apparence des objets comme source principale d’association entre objets dans une vidéo, en utilisant des prioris spatiaux et temporels comme facteurs de pondération. Nous construisons des premières tracklets en exploitant l’idée que des instances d’un même objet proches dans le temps doivent présenter une apparence similaire, puis nous formons les trajectoires finales en fusionnant ces tracklets de manière hiérarchique. Des expériences étendues montrent l’efficacité de notre méthode sur trois benchmarks différents : MOT17, MOT20 et DanceTrack, avec des performances compétitives sur MOT17 et MOT20, et des résultats de pointe (state-of-the-art) sur DanceTrack.