LMOT : Détection et suivi léger et efficace dans les foules
Le suivi multi-objets constitue une composante essentielle dans de nombreuses applications de robotique et de vision par ordinateur. Toutefois, les techniques existantes de suivi multi-objets font souvent un compromis entre le temps de calcul et la précision du suivi, ce qui pose des défis pour leur déploiement dans des applications en temps réel. Ce papier présente un nouveau modèle en temps réel, appelé LMOT (Light-weight Multi-Object Tracker), qui effectue conjointement la détection et le suivi de piétons. LMOT introduit un réseau encodeur DLA-34 simplifié pour extraire efficacement les caractéristiques de détection à partir de l’image courante, tout en étant très économique en termes de ressources computationnelles. Par ailleurs, nous générons des caractéristiques de suivi efficaces à l’aide d’un transformateur linéaire appliqué à l’image précédente et à sa carte de chaleur de détection correspondante. Ensuite, LMOT fusionne les cartes de caractéristiques de détection et de suivi selon un schéma multi-couches, puis réalise une association de données en ligne en deux étapes, fondée sur le filtre de Kalman, afin de produire des tracklets. Nous avons évalué notre modèle sur les ensembles de données réalistes et exigeants MOT16/17/20, où LMOT s’avère significativement supérieur aux trackers de pointe en termes de temps d’exécution, tout en maintenant une grande robustesse. LMOT est approximativement dix fois plus rapide que les trackers de pointe, tout en étant seulement en moyenne 3,8 % inférieur en précision, ce qui en fait un modèle nettement plus léger sur le plan computationnel.