Connaître son environnement : exploitation des informations scéniques pour le suivi d'objets

Les traqueurs d’état de l’art actuels ne s’appuient que sur un modèle d’apparence cible pour localiser l’objet dans chaque trame. Ces approches sont toutefois sujettes à échouer en cas de changements rapides d’apparence ou de présence d’objets distracteurs, où un modèle d’apparence seule s’avère insuffisant pour une traque robuste. La connaissance de la présence et des positions d’autres objets dans la scène environnante peut s’avérer particulièrement bénéfique dans de telles situations. Cette information scénique peut être propagée au fil de la séquence et utilisée, par exemple, pour éviter explicitement les objets distracteurs ou éliminer les régions candidates au cible.Dans ce travail, nous proposons une nouvelle architecture de traque qui peut exploiter l’information scénique pour améliorer la localisation. Notre traqueur représente cette information sous la forme de vecteurs d’état locaux denses, capables de coder, par exemple, si une région locale correspond au cible, au fond ou à un objet distracteur. Ces vecteurs sont propagés au fil de la séquence et combinés avec la sortie du modèle d’apparence afin de localiser le cible. Notre réseau est entraîné de manière à exploiter efficacement l’information scénique en maximisant directement la performance de traque sur des segments vidéo. L’approche proposée établit un nouveau record sur trois benchmarks de traque, atteignant un score AO de 63,6 % sur le récent jeu de données GOT-10k.