Interaction spatio-temporelle pontée par le langage pour la segmentation d'objets vidéo par référence

La segmentation d'objets vidéo par référence vise à prédire les étiquettes du premier plan pour les objets mentionnés par des expressions linguistiques naturelles dans des vidéos. Les méthodes précédentes s'appuient soit sur des ConvNets 3D, soit intègrent des ConvNets 2D supplémentaires en tant qu'encodeurs afin d'extraire des caractéristiques spatio-temporelles mixtes. Toutefois, ces approches souffrent de désalignement spatial ou de faux distracteurs, dus à une interaction spatio-temporelle tardive et implicite qui se produit lors de la phase de décodage. Pour surmonter ces limitations, nous proposons un module de transfert duplex guidé par le langage (LBDT), qui utilise le langage comme pont intermédiaire afin d’assurer une interaction spatio-temporelle explicite et adaptative plus tôt, durant la phase d’encodage. Plus précisément, une attention intermodale est établie entre l’encodeur temporel, les mots de référence et l’encodeur spatial, permettant ainsi d’agréger et de transférer efficacement les informations pertinentes au langage, relatives à la motion et à l’apparence. En outre, nous introduisons également un module de activation canal-bilaterale (BCA) lors de la phase de décodage, afin de déséliminer davantage le bruit et de renforcer les caractéristiques spatio-temporelles cohérentes grâce à une activation canal par canal. Des expériences étendues montrent que notre méthode atteint de nouveaux états de l’art sur quatre benchmarks populaires, avec des gains absolus de 6,8 % et 6,9 % en AP sur A2D Sentences et J-HMDB Sentences respectivement, tout en consommant environ 7 fois moins de ressources computationnelles.