il y a 11 jours

Référencé par la multimodalité : un Transformer temporel unifié pour la segmentation d'objets vidéo

Shilin Yan, Renrui Zhang, Ziyu Guo, Wenchao Chen, Wei Zhang, Hongyang Li, Yu Qiao, Hao Dong, Zhongjiang He, Peng Gao

Résumé

Récemment, la segmentation d'objets vidéo (VOS) guidée par des signaux multimodaux, tels que le langage naturel et le son, a suscité un intérêt croissant tant dans l'industrie que dans le milieu académique. Cette tâche soulève des défis importants concernant l’alignement sémantique au sein des modalités et la correspondance visuelle entre les trames. Toutefois, les méthodes existantes adoptent généralement des architectures réseau séparées pour chaque modalité, tout en négligeant les interactions temporelles inter-trames avec des références. Dans cet article, nous proposons MUTR, un modèle de transformer temporel unifié multimodal pour la segmentation d'objets vidéo par référence. Pour la première fois, MUTR met en œuvre un cadre unifié basé sur une architecture de type DETR, permettant de segmenter des objets vidéo spécifiés par une référence textuelle ou auditive. Plus précisément, nous introduisons deux stratégies pour exploiter pleinement les relations temporelles entre les vidéos et les signaux multimodaux. Premièrement, avant l’entrée dans le transformer, une agrégation temporelle de bas niveau permet aux références multimodales de capturer des indices visuels à plusieurs échelles à partir de trames vidéo consécutives. Cette approche confère efficacement aux signaux textuels ou audio une connaissance temporelle, renforçant ainsi l’alignement sémantique entre les modalités. Deuxièmement, après le transformer, une interaction temporelle de haut niveau est mise en œuvre via une communication entre les caractéristiques inter-trames pour les embeddings d’objets, ce qui améliore la correspondance objet-par-objet au fil de la vidéo. Sur les jeux de données Ref-YouTube-VOS et AVSBench, utilisant respectivement des références textuelles et audio, MUTR atteint des gains de +4,2 % et +8,7 % en J&F par rapport aux méthodes de l’état de l’art, démontrant ainsi l’efficacité de notre approche pour la VOS multimodale unifiée. Le code source est disponible à l’adresse suivante : https://github.com/OpenGVLab/MUTR.