il y a 6 mois

Résumé

La segmentation d'objets vidéo par référence (RVOS) consiste à segmenter une instance d'objet à partir d'une vidéo donnée, selon la description textuelle de cet objet. Toutefois, dans un environnement ouvert, les descriptions d'objets sont souvent diversifiées en contenu et flexibles en longueur. Cela pose un défi majeur en RVOS : différentes descriptions d'objets correspondent à des échelles temporelles variées dans la vidéo, un aspect ignoré par la plupart des approches existantes qui utilisent une seule cadence d'échantillonnage d'images. Pour relever ce problème, nous proposons un cadre concis, appelé HTML (Hybrid Temporal-scale Multimodal Learning), qui permet d’aligner efficacement les caractéristiques linguistiques et visuelles afin de découvrir les sémantiques fondamentales des objets dans la vidéo, en apprenant hiérarchiquement les interactions multimodales à partir d’échelles temporelles différentes. Plus précisément, nous introduisons un nouveau module de perception multimodale inter-échelle, dans lequel les requêtes linguistiques interagissent dynamiquement avec les caractéristiques visuelles à travers différentes échelles temporelles. Ce module permet de réduire efficacement la confusion liée aux objets complexes en transférant le contexte vidéo entre les différentes échelles. Enfin, nous menons des expériences approfondies sur des benchmarks largement utilisés, notamment Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences et JHMDB-Sentences, où notre méthode HTML atteint des performances de pointe sur tous ces jeux de données.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Yu Qiao Xiaojun Chang Lina Yao Zhihui Li Yali Wang Mingfei Han

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Yu Qiao Xiaojun Chang Lina Yao Zhihui Li Yali Wang Mingfei Han

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

HTML : Cadre d'apprentissage hybride à plusieurs échelles temporelles pour la segmentation d'objets vidéo par référence

Yu Qiao Xiaojun Chang Lina Yao Zhihui Li Yali Wang Mingfei Han

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HTML : Cadre d'apprentissage hybride à plusieurs échelles temporelles pour la segmentation d'objets vidéo par référence

Yu Qiao Xiaojun Chang Lina Yao Zhihui Li Yali Wang Mingfei Han

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HTML : Cadre d'apprentissage hybride à plusieurs échelles temporelles pour la segmentation d'objets vidéo par référence

Yu Qiao Xiaojun Chang Lina Yao Zhihui Li Yali Wang Mingfei Han

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters