Apprentissage d'une Co-Attention Mouvement-Apparence pour la Segmentation d'Objets Vidéo Zéro-Shot

Comment faire interagir efficacement les informations d’apparence et de mouvement afin de s’adapter à des scénarios complexes constitue une question fondamentale dans le domaine de la segmentation d’objets vidéo sans apprentissage préalable basée sur le flux. Dans cet article, nous proposons un réseau de collaboration multi-modale attentive (AMC-Net) afin d’utiliser de manière uniforme les informations d’apparence et de mouvement. Plus précisément, AMC-Net fusionne les informations robustes issues des caractéristiques multi-modales et favorise leur collaboration en deux étapes. Premièrement, nous introduisons une porte d’attention co-modale (MCG) sur les deux branches encodantes bilatérales, où une fonction de porte permet de modéliser des scores d’attention co-modale afin d’équilibrer les contributions des caractéristiques multi-modales et de supprimer les informations redondantes ou trompeuses. Ensuite, nous proposons un module de correction du mouvement (MCM) basé sur un mécanisme d’attention visuelle-mouvement, conçu pour renforcer les caractéristiques des objets en premier plan en exploitant la correspondance spatio-temporelle entre les indices d’apparence et de mouvement. Des expériences étendues sur trois jeux de données publics et exigeants montrent que notre réseau proposé obtient des résultats compétitifs par rapport aux méthodes les plus avancées existantes, même lorsqu’il est entraîné avec moins de données.