Ancre Spatio-Temporelle Guidée par le Contexte dans les Vidéos

La tâche de localisation spatio-temporelle des vidéos (ou STVG) vise à situer un tube spatio-temporel pour une instance spécifique donnée une requête textuelle. Malgré les progrès réalisés, les méthodes actuelles sont facilement perturbées par les distractions ou les variations importantes de l'apparence des objets dans les vidéos, en raison d'une information insuffisante sur l'objet provenant du texte, ce qui entraîne une dégradation des performances. Pour remédier à cela, nous proposons un nouveau cadre, la localisation spatio-temporelle guidée par le contexte (CG-STVG), qui exploite le contexte discriminatif de l'instance pour l'objet dans les vidéos et l'utilise comme guide supplémentaire pour la localisation cible. L'essentiel de CG-STVG réside dans deux modules spécialement conçus : la génération de contexte d'instance (ICG), qui se concentre sur la découverte d'informations contextuelles visuelles (en apparence et en mouvement) de l'instance, et le raffinement de contexte d'instance (ICR), qui vise à améliorer le contexte d'instance issu de ICG en éliminant les informations non pertinentes ou même nuisibles du contexte. Pendant la localisation, ICG et ICR sont déployés à chaque étape de décodage d'une architecture Transformer pour l'apprentissage du contexte d'instance. Plus particulièrement, le contexte d'instance appris à une étape de décodage est transmis à l'étape suivante et utilisé comme guide contenant des caractéristiques riches et discriminantes de l'objet pour renforcer la conscience cible dans les caractéristiques de décodage, ce qui inversement bénéficie à la génération d'un meilleur nouveau contexte d'instance pour améliorer finalement la localisation. Comparativement aux méthodes existantes, CG-STVG bénéficie des informations sur l'objet contenues dans la requête textuelle et du guide fourni par le contexte visuel extrait pour une localisation cible plus précise. Dans nos expériences sur trois benchmarks, y compris HCSTVG-v1/v2 et VidSTG, CG-STVG établit de nouveaux états de l'art en termes de m_tIoU et m_vIoU sur tous ces benchmarks, démontrant son efficacité. Le code sera rendu disponible sur https://github.com/HengLan/CGSTVG.