HyperAIHyperAI
il y a 16 jours

Vers une segmentation robuste des objets vidéo par référence basée sur un consensus relationnel cyclique

Xiang Li, Jinglu Wang, Xiaohao Xu, Xiao Li, Bhiksha Raj, Yan Lu
Vers une segmentation robuste des objets vidéo par référence basée sur un consensus relationnel cyclique
Résumé

La segmentation d'objets vidéo par référence (R-VOS) est une tâche exigeante visant à segmenter un objet dans une vidéo à partir d'une expression linguistique. La plupart des méthodes actuelles de R-VOS reposent sur une hypothèse critique : l'objet mentionné doit apparaître effectivement dans la vidéo. Cette hypothèse, que nous désignons sous le nom de consensus sémantique, est fréquemment violée dans des scénarios réels, où l'expression peut être interrogée par rapport à des vidéos inexactes. Dans ce travail, nous mettons en évidence la nécessité d'un modèle de R-VOS robuste capable de gérer les désaccords sémantiques. À cet effet, nous proposons une extension de la tâche appelée R-VOS robuste, qui accepte des entrées vidéo-texte non appariées. Pour résoudre ce problème, nous modélisons conjointement le problème principal de R-VOS et son dual (reconstruction du texte). Une contrainte cyclique structurée du texte au texte est introduite afin de distinguer le consensus sémantique entre paires vidéo-texte et de l'imposer dans les paires positives, permettant ainsi une alignement multi-modale à la fois à partir de paires positives et négatives. Notre contrainte structurée permet efficacement de surmonter le défi posé par la diversité linguistique, dépassant les limites des méthodes antérieures fondées sur des contraintes ponctuelles. Un nouveau jeu de données d'évaluation, R\textsuperscript{2}-Youtube-VOS, a été construit pour mesurer la robustesse du modèle. Notre modèle atteint des performances de pointe sur les benchmarks R-VOS Ref-DAVIS17 et Ref-Youtube-VOS, ainsi que sur notre nouveau jeu de données R\textsuperscript{2}-Youtube-VOS.