HyperAIHyperAI
il y a 11 jours

LoSh : Réseau de prédiction conjointe long-courte pour la segmentation d'objets vidéo par référence

Linfeng Yuan, Miaojing Shi, Zijie Yue, Qijun Chen
LoSh : Réseau de prédiction conjointe long-courte pour la segmentation d'objets vidéo par référence
Résumé

La segmentation d'objets vidéo par référence (RVOS) vise à segmenter l'instance cible mentionnée par une expression textuelle donnée dans une séquence vidéo. L'expression textuelle contient généralement une description complexe de l'apparence de l'instance, de ses actions et de ses relations avec d'autres objets. Il est donc particulièrement difficile pour un modèle RVOS de capturer tous ces attributs de manière adéquate dans la vidéo ; en réalité, le modèle tend souvent à privilégier davantage les attributs visuels liés aux actions et aux relations. Cela peut conduire à des prédictions partielles ou même erronées du masque de l'instance cible. Pour résoudre ce problème, nous proposons de tirer parti d'une expression courte, centrée sur le sujet, extraite de l'expression textuelle initiale longue. Cette expression courte ne conserve que les informations liées à l'apparence de l'instance cible, permettant ainsi de diriger l'attention du modèle vers les caractéristiques d'apparence. Nous faisons prédire au modèle de manière conjointe en utilisant à la fois l'expression longue et l'expression courte, tout en intégrant un module d'attention croisée longue-courte pour interagir avec les caractéristiques combinées, ainsi qu'une perte de régularisation par intersection des prédictions longue-courte. En plus de l'amélioration apportée au niveau linguistique, nous introduisons également une perte de cohérence visuelle avant-arrière, qui utilise les flux optiques pour déformer les caractéristiques visuelles entre les cadres annotés et leurs voisins temporels afin d’assurer une cohérence temporelle. Notre méthode est construite sur deux pipelines d’état de l’art. Des expériences étendues sur les jeux de données A2D-Sentences, Refer-YouTube-VOS, JHMDB-Sentences et Refer-DAVIS17 démontrent des améliorations significatives. Le code est disponible à l’adresse suivante : https://github.com/LinfengYuan1997/Losh.

LoSh : Réseau de prédiction conjointe long-courte pour la segmentation d'objets vidéo par référence | Articles de recherche récents | HyperAI