HyperAIHyperAI

Command Palette

Search for a command to run...

HTML : Cadre d'apprentissage hybride à plusieurs échelles temporelles pour la segmentation d'objets vidéo par référence

Yu Qiao Xiaojun Chang Lina Yao Zhihui Li Yali Wang Mingfei Han

Résumé

La segmentation d'objets vidéo par référence (RVOS) consiste à segmenter une instance d'objet à partir d'une vidéo donnée, selon la description textuelle de cet objet. Toutefois, dans un environnement ouvert, les descriptions d'objets sont souvent diversifiées en contenu et flexibles en longueur. Cela pose un défi majeur en RVOS : différentes descriptions d'objets correspondent à des échelles temporelles variées dans la vidéo, un aspect ignoré par la plupart des approches existantes qui utilisent une seule cadence d'échantillonnage d'images. Pour relever ce problème, nous proposons un cadre concis, appelé HTML (Hybrid Temporal-scale Multimodal Learning), qui permet d’aligner efficacement les caractéristiques linguistiques et visuelles afin de découvrir les sémantiques fondamentales des objets dans la vidéo, en apprenant hiérarchiquement les interactions multimodales à partir d’échelles temporelles différentes. Plus précisément, nous introduisons un nouveau module de perception multimodale inter-échelle, dans lequel les requêtes linguistiques interagissent dynamiquement avec les caractéristiques visuelles à travers différentes échelles temporelles. Ce module permet de réduire efficacement la confusion liée aux objets complexes en transférant le contexte vidéo entre les différentes échelles. Enfin, nous menons des expériences approfondies sur des benchmarks largement utilisés, notamment Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences et JHMDB-Sentences, où notre méthode HTML atteint des performances de pointe sur tous ces jeux de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
HTML : Cadre d'apprentissage hybride à plusieurs échelles temporelles pour la segmentation d'objets vidéo par référence | Articles | HyperAI