HyperAIHyperAI
il y a 11 jours

HTML : Cadre d'apprentissage hybride à plusieurs échelles temporelles pour la segmentation d'objets vidéo par référence

{Yu Qiao, Xiaojun Chang, Lina Yao, Zhihui Li, Yali Wang, Mingfei Han}
HTML : Cadre d'apprentissage hybride à plusieurs échelles temporelles pour la segmentation d'objets vidéo par référence
Résumé

La segmentation d'objets vidéo par référence (RVOS) consiste à segmenter une instance d'objet à partir d'une vidéo donnée, selon la description textuelle de cet objet. Toutefois, dans un environnement ouvert, les descriptions d'objets sont souvent diversifiées en contenu et flexibles en longueur. Cela pose un défi majeur en RVOS : différentes descriptions d'objets correspondent à des échelles temporelles variées dans la vidéo, un aspect ignoré par la plupart des approches existantes qui utilisent une seule cadence d'échantillonnage d'images. Pour relever ce problème, nous proposons un cadre concis, appelé HTML (Hybrid Temporal-scale Multimodal Learning), qui permet d’aligner efficacement les caractéristiques linguistiques et visuelles afin de découvrir les sémantiques fondamentales des objets dans la vidéo, en apprenant hiérarchiquement les interactions multimodales à partir d’échelles temporelles différentes. Plus précisément, nous introduisons un nouveau module de perception multimodale inter-échelle, dans lequel les requêtes linguistiques interagissent dynamiquement avec les caractéristiques visuelles à travers différentes échelles temporelles. Ce module permet de réduire efficacement la confusion liée aux objets complexes en transférant le contexte vidéo entre les différentes échelles. Enfin, nous menons des expériences approfondies sur des benchmarks largement utilisés, notamment Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences et JHMDB-Sentences, où notre méthode HTML atteint des performances de pointe sur tous ces jeux de données.