il y a 6 mois

Résumé

Cet article étudie la segmentation d’objets vidéo par référence (RVOS) en renforçant l’alignement visuel-linguistique au niveau de la vidéo. Les approches récentes modélisent la tâche RVOS comme un problème de prédiction séquentielle et effectuent l’interaction multi-modale ainsi que la segmentation pour chaque trame séparément. Toutefois, le manque d’une vue globale sur le contenu vidéo rend difficile l’utilisation efficace des relations entre trames et la compréhension des descriptions textuelles des variations temporelles des objets. Pour remédier à ce problème, nous proposons SOC (Semantic-assisted Object Cluster), une méthode qui agrège le contenu vidéo et les indications linguistiques afin de permettre une modélisation temporelle unifiée et une alignement cross-modale. En associant un groupe d’embeddings d’objets au niveau des trames aux tokens linguistiques, SOC favorise l’apprentissage conjoint dans l’espace multi-modale et au fil du temps. En outre, nous introduisons une supervision contrastive multi-modale pour aider à construire un espace conjoint bien aligné au niveau de la vidéo. Nous menons des expériences étendues sur des benchmarks populaires de RVOS, et notre méthode dépasse significativement les concurrents les plus avancés sur tous les benchmarks. En outre, l’accent mis sur la cohérence temporelle améliore la stabilité et l’adaptabilité de notre méthode lors du traitement d’expressions textuelles présentant des variations temporelles. Le code sera rendu disponible.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Zhuoyan Luo Yicheng Xiao Yong Liu Shuyan Li Yitong Wang Yansong Tang Xiu Li Yujiu Yang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Zhuoyan Luo Yicheng Xiao Yong Liu Shuyan Li Yitong Wang Yansong Tang Xiu Li Yujiu Yang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

SOC : Cluster d'objets assisté par la sémantique pour la segmentation d'objets vidéo par référence | Articles | HyperAI

Command Palette

SOC : Cluster d'objets assisté par la sémantique pour la segmentation d'objets vidéo par référence

Zhuoyan Luo Yicheng Xiao Yong Liu Shuyan Li Yitong Wang Yansong Tang Xiu Li Yujiu Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SOC : Cluster d'objets assisté par la sémantique pour la segmentation d'objets vidéo par référence

Zhuoyan Luo Yicheng Xiao Yong Liu Shuyan Li Yitong Wang Yansong Tang Xiu Li Yujiu Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SOC : Cluster d'objets assisté par la sémantique pour la segmentation d'objets vidéo par référence

Zhuoyan Luo Yicheng Xiao Yong Liu Shuyan Li Yitong Wang Yansong Tang Xiu Li Yujiu Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters