SiamFC++ : Vers un suivi visuel robuste et précis grâce à des directives d'estimation de cible

Le problème de suivi visuel exige la capacité à effectuer simultanément une classification robuste et une estimation précise de l’état de la cible. Les méthodes antérieures ont proposé diverses approches pour l’estimation de l’état de la cible, mais peu d’entre elles ont pris en compte les spécificités propres au problème de suivi visuel. Après une analyse approfondie, nous proposons un ensemble de lignes directrices pratiques pour l’estimation de l’état de la cible, destinées à concevoir des trackers génériques à haute performance. En suivant ces lignes directrices, nous avons conçu notre tracker Fully Convolutional Siamese ++ (SiamFC++) en intégrant à la fois une branche de classification et une branche d’estimation de l’état de la cible (G1), un score de classification sans ambiguïté (G2), un suivi sans connaissance préalable (G3), ainsi qu’un score de qualité d’estimation (G4). Des analyses approfondies et des études d’ablation démontrent l’efficacité de nos lignes directrices proposées. Sans recourir à des artifices supplémentaires, notre tracker SiamFC++ atteint des performances de pointe sur cinq benchmarks exigeants (OTB2015, VOT2018, LaSOT, GOT-10k, TrackingNet), ce qui atteste à la fois de sa capacité de suivi et de sa généralisation. En particulier, sur le jeu de données de grande taille TrackingNet, SiamFC++ atteint un score AUC inédit de 75,4 tout en fonctionnant à plus de 90 FPS, bien au-delà des exigences en temps réel. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/MegviiDetection/video_analyst.