Modélisation multi-contexte temporellement cohérente pour la segmentation d'objets vidéo par référence

La segmentation d'objets par référence vidéo vise à segmenter les objets dans une vidéo correspondant à une description textuelle donnée. Les approches actuelles de modélisation temporelle basées sur les transformateurs font face à des défis liés à l'incohérence des requêtes et à la prise en compte limitée du contexte. L'incohérence des requêtes génère des masques instables pour différents objets au milieu de la vidéo. La prise en compte limitée du contexte entraîne la segmentation d'objets incorrects en ne parvenant pas à prendre suffisamment en compte la relation entre le texte donné et les instances. Pour résoudre ces problèmes, nous proposons le module de cohérence temporelle multi-contexte (MTCM), qui comprend un Aligneur et un Renforceur multi-contexte (MCE). L'Aligneur élimine le bruit des requêtes et les aligne pour assurer leur cohérence. Le MCE prédit des requêtes pertinentes au texte en considérant plusieurs contextes. Nous avons appliqué MTCM à quatre modèles différents, améliorant leurs performances, notamment en atteignant un score de 47,6 J&F sur MeViS. Le code est disponible sur https://github.com/Choi58/MTCM.