HyperAIHyperAI
il y a 11 jours

Modélisation spatio-temporelle collaborative pour la segmentation d'acteurs vidéo interrogeable par langage

Tianrui Hui, Shaofei Huang, Si Liu, Zihan Ding, Guanbin Li, Wenguan Wang, Jizhong Han, Fei Wang
Modélisation spatio-temporelle collaborative pour la segmentation d'acteurs vidéo interrogeable par langage
Résumé

La segmentation d’acteurs vidéo interrogeable par langage vise à prédire le masque au niveau des pixels de l’acteur qui exécute les actions décrites par une requête naturelle dans les trames cibles. Les méthodes existantes utilisent généralement des réseaux de convolution 3D (3D CNN) sur un clip vidéo comme encodeur général afin d’extraire une caractéristique mixte spatio-temporelle pour la trame cible. Bien que les convolutions 3D soient adaptées à la reconnaissance de l’acteur exécutant les actions requises, elles introduisent inévitablement des informations spatiales désalignées provenant des trames adjacentes, ce qui perturbe les caractéristiques de la trame cible et conduit à une segmentation imprécise. Ainsi, nous proposons un cadre collaboratif encodeur-décodeur spatio-temporel, comprenant un encodeur temporel 3D sur le clip vidéo pour reconnaître les actions requises, ainsi qu’un encodeur spatial 2D sur la trame cible pour segmenter précisément les acteurs concernés. Dans le décodeur, nous introduisons un module de sélection de caractéristiques guidé par le langage (LGFS) permettant d’intégrer de manière flexible les caractéristiques spatiales et temporelles provenant des deux encodeurs. Nous proposons également un module de modulation adaptative multimodale (CMAM) pour recombiner dynamiquement les caractéristiques linguistiques pertinentes aux dimensions spatiale et temporelle, favorisant ainsi une interaction multimodale efficace à chaque étape des deux encodeurs. Notre méthode atteint de nouveaux états de l’art sur deux benchmarks populaires, tout en nécessitant une charge computationnelle inférieure à celle des approches antérieures.

Modélisation spatio-temporelle collaborative pour la segmentation d'acteurs vidéo interrogeable par langage | Articles de recherche récents | HyperAI