Transition attentive au mouvement pour la segmentation d'objets vidéo zéro-shot

Dans cet article, nous présentons un nouveau réseau de transition attentif au mouvement (MATNet) pour la segmentation d'objets vidéo en zéro-shot, offrant une nouvelle approche pour exploiter les informations de mouvement afin de renforcer la représentation spatio-temporelle des objets. Un bloc d'attention asymétrique, appelé Transition Attentive au Mouvement (MAT), est conçu au sein d’un encodeur à deux flux, qui transforme les caractéristiques d’apparence en représentations attentives au mouvement à chaque étape de convolution. Ainsi, l’encodeur devient profondément imbriqué, permettant des interactions hiérarchiques étroites entre le mouvement de l’objet et son apparence. Cette architecture s’avère supérieure à la structure classique à deux flux, qui traite séparément le mouvement et l’apparence dans chaque flux, et qui souffre souvent d’un surapprentissage aux informations d’apparence. Par ailleurs, un réseau pont est proposé afin d’obtenir une représentation compacte, discriminante et sensible à l’échelle pour les caractéristiques multi-niveaux issues de l’encodeur, qui sont ensuite alimentées dans un décodeur pour produire les résultats de segmentation. Des expériences étendues sur trois benchmarks publics exigeants (à savoir DAVIS-16, FBMS et Youtube-Objects) démontrent que notre modèle atteint des performances remarquables par rapport aux méthodes de pointe.