Intégration de boîtes et de masques : un cadre multi-objets pour un suivi visuel et une segmentation unifiés
Suivre un objet donné dans l’espace et le temps est un objectif courant en suivi d’objets visuels (Visual Object Tracking, VOT) et en segmentation d’objets vidéo (Video Object Segmentation, VOS). Bien que certaines études aient exploré le suivi et la segmentation conjoints, elles souffrent souvent d’une incompatibilité complète entre les boîtes englobantes (bounding boxes) et les masques lors de l’initialisation et de la prédiction, et se concentrent principalement sur des scénarios à un seul objet. Pour surmonter ces limitations, ce papier propose un cadre intégré multi-objets basé sur les masques et les boîtes, dénommé MITS (Multi-object Mask-box Integrated framework for unified Tracking and Segmentation). Premièrement, un module d’identification unifié est introduit afin de supporter à la fois les boîtes et les masques comme références pour l’initialisation, permettant d’extraire des informations détaillées sur les objets à partir des boîtes ou de conserver directement les informations des masques. En outre, un nouveau prédicteur de boîtes précises est proposé pour une prédiction efficace des boîtes multi-objets, favorisant ainsi un apprentissage de représentations orientées vers les cibles. Tous les objets cibles sont traités simultanément, depuis le codage jusqu’à la propagation et le décodage, dans un pipeline unifié dédié au VOT et au VOS. Les résultats expérimentaux montrent que MITS atteint des performances de pointe sur les benchmarks de VOT et de VOS. Notamment, MITS dépasse le meilleur concurrent précédent en VOT d’environ 6 % sur le jeu de test GOT-10k, et améliore significativement la qualité de l’initialisation par boîtes sur les benchmarks de VOS. Le code source est disponible à l’adresse suivante : https://github.com/yoxu515/MITS.