HyperAIHyperAI

Command Palette

Search for a command to run...

Encodage à deux flux fortement entrelacés pour la segmentation vidéo par référence

Guang Feng Lihe Zhang Zhiwei Hu Huchuan Lu

Résumé

La segmentation vidéo par référence vise à segmenter l’objet vidéo correspondant à une expression linguistique donnée. Pour aborder cette tâche, nous proposons tout d’abord un encodeur à deux flux, conçu pour extraire de manière hiérarchique des caractéristiques visuelles basées sur les réseaux de neurones convolutifs (CNN) et des caractéristiques linguistiques basées sur les transformateurs. Un module de guidage mutuel vision-langage (VLMG) est intégré plusieurs fois dans cet encodeur afin de favoriser une fusion hiérarchique et progressive des caractéristiques multimodales. Contrairement aux méthodes existantes de fusion multimodale, cet encodeur à deux flux prend en compte le contexte linguistique à plusieurs granularités et réalise une intégration profonde entre les modalités grâce au module VLMG. Afin d’améliorer l’alignement temporel entre les trames, nous introduisons également un module de filtrage dynamique multi-échelle guidé par le langage (LMDF), qui renforce la cohérence temporelle en utilisant des caractéristiques spatio-temporelles guidées par le langage pour générer un ensemble de filtres dynamiques spécifiques à la position, permettant ainsi une mise à jour plus flexible et efficace des caractéristiques de la trame courante. Des expériences étendues sur quatre jeux de données confirment l’efficacité du modèle proposé.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp