Régression probabiliste pour le suivi visuel

Le suivi visuel est fondamentalement un problème de régression de l’état de la cible dans chaque image d’une séquence vidéo. Bien que des progrès significatifs aient été réalisés, les trackers restent sujets à des échecs et à des inexactitudes. Il est donc essentiel de représenter l’incertitude associée à l’estimation de la cible. Bien que les paradigmes actuels reposent principalement sur l’estimation d’un score de confiance dépendant de l’état, cette valeur manque d’une interprétation probabiliste claire, ce qui complique son utilisation.Dans ce travail, nous proposons donc une formulation probabiliste de la régression, appliquée au suivi visuel. Notre réseau prédit la densité de probabilité conditionnelle de l’état de la cible à partir d’une image d’entrée. De manière cruciale, notre formulation permet de modéliser le bruit d’étiquetage provenant d’annotations imprécises ainsi que les ambiguïtés inhérentes à la tâche. Le réseau de régression est entraîné en minimisant la divergence de Kullback-Leibler. Lorsqu’il est appliqué au suivi, notre approche permet non seulement une représentation probabiliste de la sortie, mais améliore également de manière significative les performances. Notre tracker établit un nouveau record sur six jeux de données, atteignant 59,8 % d’AUC sur LaSOT et 75,8 % de succès sur TrackingNet. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/visionml/pytracking.