il y a 6 mois

Résumé

La segmentation vidéo par référence vise à segmenter l’objet vidéo correspondant à une expression linguistique donnée. Pour aborder cette tâche, nous proposons tout d’abord un encodeur à deux flux, conçu pour extraire de manière hiérarchique des caractéristiques visuelles basées sur les réseaux de neurones convolutifs (CNN) et des caractéristiques linguistiques basées sur les transformateurs. Un module de guidage mutuel vision-langage (VLMG) est intégré plusieurs fois dans cet encodeur afin de favoriser une fusion hiérarchique et progressive des caractéristiques multimodales. Contrairement aux méthodes existantes de fusion multimodale, cet encodeur à deux flux prend en compte le contexte linguistique à plusieurs granularités et réalise une intégration profonde entre les modalités grâce au module VLMG. Afin d’améliorer l’alignement temporel entre les trames, nous introduisons également un module de filtrage dynamique multi-échelle guidé par le langage (LMDF), qui renforce la cohérence temporelle en utilisant des caractéristiques spatio-temporelles guidées par le langage pour générer un ensemble de filtres dynamiques spécifiques à la position, permettant ainsi une mise à jour plus flexible et efficace des caractéristiques de la trame courante. Des expériences étendues sur quatre jeux de données confirment l’efficacité du modèle proposé.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Représentation Multimodale

Segmentation Sémantique

Traitement Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Guang Feng Lihe Zhang Zhiwei Hu Huchuan Lu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Représentation Multimodale

Segmentation Sémantique

Traitement Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Guang Feng Lihe Zhang Zhiwei Hu Huchuan Lu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Encodage à deux flux fortement entrelacés pour la segmentation vidéo par référence | Articles | HyperAI

Command Palette

Encodage à deux flux fortement entrelacés pour la segmentation vidéo par référence

Guang Feng Lihe Zhang Zhiwei Hu Huchuan Lu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Encodage à deux flux fortement entrelacés pour la segmentation vidéo par référence

Guang Feng Lihe Zhang Zhiwei Hu Huchuan Lu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Encodage à deux flux fortement entrelacés pour la segmentation vidéo par référence

Guang Feng Lihe Zhang Zhiwei Hu Huchuan Lu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters