Alpha-Refine : Amélioration des performances de suivi par une estimation précise des boîtes englobantes

Le suivi d'objets visuels vise à estimer précisément la boîte englobante (bounding box) du cible donnée, un problème difficile en raison de facteurs tels que la déformation et l'occlusion. De nombreux trackers récents adoptent une stratégie de suivi en plusieurs étapes afin d'améliorer la qualité de l'estimation de la boîte. Ces méthodes localisent d'abord grossièrement la cible, puis affinent progressivement cette prédiction dans les étapes suivantes. Toutefois, les approches existantes souffrent encore d'une précision limitée, et le couplage entre les différentes étapes restreint sévèrement la transférabilité de la méthode. Ce travail propose un nouveau module de raffinement flexible, précis et innovant, nommé Alpha-Refine (AR), capable d'améliorer significativement la qualité de l'estimation des boîtes des trackers de base. En explorant une série d'options de conception, nous concluons que la clé du succès du raffinement réside dans la extraction et la conservation au maximum d'informations spatiales détaillées. En suivant ce principe, Alpha-Refine intègre comme composants centraux une corrélation au niveau des pixels, une tête de prédiction des coins et une tête auxiliaire de masque. Des expériences approfondies menées sur les benchmarks TrackingNet, LaSOT, GOT-10K et VOT2020, avec plusieurs trackers de base, montrent que notre approche améliore de manière significative les performances des trackers de base, avec un surcoût de latence négligeable. La méthode Alpha-Refine conduit à une série de trackers renforcés, dont ARSiamRPN (SiamRPNpp renforcé par AR) et ARDiMP50 (DiMP50 renforcé par AR) atteignent un bon compromis entre efficacité et précision, tandis qu'ARDiMPsuper (DiMP-super renforcé par AR) atteint des performances très compétitives à vitesse en temps réel. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/MasterBin-IIAU/AlphaRefine.