BATMAN : Transformateur d'Attention Bilatéral dans l'Espace de Voisinage Apparence-Mouvement pour la Segmentation d'Objets Vidéo

La segmentation d'objets vidéo (VOS) est fondamentale pour la compréhension des vidéos. Les méthodes basées sur les transformateurs montrent une amélioration significative des performances en VOS semi-supervisé. Cependant, les travaux existants rencontrent des défis lors de la segmentation d'objets visuellement similaires situés à proximité les uns des autres. Dans cet article, nous proposons un nouveau transformateur d'attention bilatérale dans l'espace de voisinage mouvement-apparence (BATMAN) pour le VOS semi-supervisé. Il capture le mouvement des objets dans la vidéo grâce à un module de calibration du flux optique novateur qui fusionne le masque de segmentation avec l'estimation du flux optique afin d'améliorer la fluidité du flux optique intra-objet et de réduire le bruit aux frontières des objets. Ce flux optique calibré est ensuite utilisé dans notre attention bilatérale novatrice, qui calcule la correspondance entre les trames requête et référence dans l'espace de voisinage bilatéral en tenant compte à la fois du mouvement et de l'apparence. De nombreuses expériences valident l'efficacité de l'architecture BATMAN en surpassant tous les états de l'art existants sur les quatre benchmarks VOS populaires : Youtube-VOS 2019 (85,0 %), Youtube-VOS 2018 (85,3 %), DAVIS 2017 Val/Testdev (86,2 %/82,2 %) et DAVIS 2016 (92,5 %).