Expression Prompt Collaboration Transformer pour la segmentation d'objets vidéo par référence universelle

La segmentation d’objets vidéo guidée par l’audio (A-VOS) et la segmentation d’objets vidéo référentielle (R-VOS) sont deux tâches étroitement liées, visant toutes deux à segmenter des objets spécifiques à partir de séquences vidéo en réponse à des promts expressifs. Toutefois, en raison des défis liés à la modélisation des représentations pour différentes modalités, les méthodes existantes peinent à trouver un équilibre entre la flexibilité d’interaction et la précision de localisation. Dans ce travail, nous abordons ce problème sous deux angles : l’alignement entre l’audio et le texte, ainsi que l’interaction approfondie entre les modalités audio, texte et visuelle. Tout d’abord, nous proposons une architecture universelle, appelée Expression Prompt Collaboration Transformer (EPCFormer). Ensuite, nous introduisons un mécanisme d’alignement d’expression (EA) entre l’audio et le texte. L’EPCFormer exploite le fait que les promts audio et textuels faisant référence au même objet sont sémantiquement équivalents, en utilisant un apprentissage contrastif pour les deux types d’expressions. Par la suite, afin de favoriser des interactions profondes entre les modalités audio, texte et visuelle, nous proposons un module d’attention Expression-Visual (EVA). Grâce à une exploration approfondie des indices complémentaires entre le texte et l’audio, les connaissances acquises dans la segmentation d’objets vidéo à partir de promts expressifs peuvent être transférées de manière fluide entre les deux tâches. Des expériences menées sur des benchmarks reconnus démontrent que notre EPCFormer atteint des résultats de pointe sur les deux tâches. Le code source sera rendu publiquement disponible à l’adresse suivante : https://github.com/lab206/EPCFormer.