SiamRPN++ : Évolution du suivi visuel siamois avec des réseaux très profonds

Les traceurs basés sur les réseaux siamois formulent le suivi comme une corrélation de caractéristiques convolutives entre le modèle cible et la région de recherche. Cependant, ces traceurs présentent encore un écart en termes de précision par rapport aux algorithmes de pointe et ne peuvent pas tirer parti des caractéristiques provenant des réseaux profonds, tels que ResNet-50 ou plus profonds. Dans ce travail, nous démontrons que la cause principale provient du manque d'invariance stricte à la translation. Grâce à une analyse théorique approfondie et à des validations expérimentales, nous levons cette restriction grâce à une stratégie d'échantillonnage spatialement consciente simple mais efficace, et nous parvenons à entraîner avec succès un traceur siamois piloté par ResNet avec une amélioration significative des performances. De plus, nous proposons une nouvelle architecture de modèle pour effectuer des agrégations en profondeur et couche par couche, ce qui non seulement améliore davantage la précision mais réduit également la taille du modèle. Nous menons des études d'ablation exhaustives pour démontrer l'efficacité du traceur proposé, qui obtient actuellement les meilleurs résultats sur quatre grands benchmarks de suivi, notamment OTB2015, VOT2018, UAV123 et LaSOT. Notre modèle sera rendu disponible pour faciliter des études ultérieures basées sur ce problème.