RPT : Apprentissage de la représentation des ensembles de points pour le suivi visuel de type Siamese

Bien que des progrès remarquables aient été réalisés dans le suivi visuel robuste, l'estimation précise de l'état de la cible reste un problème hautement complexe. Dans cet article, nous soutenons que ce défi est étroitement lié à la représentation couramment utilisée des boîtes englobantes, qui ne fournit qu'une estimation grossière de l'étendue spatiale de l'objet. Ainsi, nous proposons un cadre de suivi visuel efficace visant à estimer précisément l'état de la cible à l’aide d’une représentation plus fine, sous la forme d’un ensemble de points représentatifs. Cet ensemble de points est entraîné pour indiquer les positions significatives du point de vue sémantique et géométrique dans la région cible, permettant une localisation et une modélisation plus fines de l’apparence de l’objet. Nous introduisons également une stratégie d’agrégation multi-niveaux afin d’obtenir des informations détaillées sur la structure en fusionnant des couches de convolution hiérarchiques. Des expériences étendues sur plusieurs benchmarks exigeants, notamment OTB2015, VOT2018, VOT2019 et GOT-10k, démontrent que notre méthode atteint de nouveaux états de l’art tout en fonctionnant à plus de 20 FPS.