HyperAIHyperAI
il y a 11 jours

Encodage à deux flux fortement entrelacés pour la segmentation vidéo par référence

Guang Feng, Lihe Zhang, Zhiwei Hu, Huchuan Lu
Encodage à deux flux fortement entrelacés pour la segmentation vidéo par référence
Résumé

La segmentation vidéo par référence vise à segmenter l’objet vidéo correspondant à une expression linguistique donnée. Pour aborder cette tâche, nous proposons tout d’abord un encodeur à deux flux, conçu pour extraire de manière hiérarchique des caractéristiques visuelles basées sur les réseaux de neurones convolutifs (CNN) et des caractéristiques linguistiques basées sur les transformateurs. Un module de guidage mutuel vision-langage (VLMG) est intégré plusieurs fois dans cet encodeur afin de favoriser une fusion hiérarchique et progressive des caractéristiques multimodales. Contrairement aux méthodes existantes de fusion multimodale, cet encodeur à deux flux prend en compte le contexte linguistique à plusieurs granularités et réalise une intégration profonde entre les modalités grâce au module VLMG. Afin d’améliorer l’alignement temporel entre les trames, nous introduisons également un module de filtrage dynamique multi-échelle guidé par le langage (LMDF), qui renforce la cohérence temporelle en utilisant des caractéristiques spatio-temporelles guidées par le langage pour générer un ensemble de filtres dynamiques spécifiques à la position, permettant ainsi une mise à jour plus flexible et efficace des caractéristiques de la trame courante. Des expériences étendues sur quatre jeux de données confirment l’efficacité du modèle proposé.

Encodage à deux flux fortement entrelacés pour la segmentation vidéo par référence | Articles de recherche récents | HyperAI