GRAtt-VIS : Attente résiduelle à portes pour la segmentation d'instances vidéo auto-correctrice

Les tendances récentes en segmentation d'instances vidéo (Video Instance Segmentation, VIS) ont vu une dépendance croissante vis-à-vis des méthodes en ligne pour modéliser des séquences vidéo complexes et longues. Toutefois, la dégradation des représentations et l'accumulation de bruit propres à ces méthodes en ligne, en particulier lors d'occlusions ou de changements brusques, posent des défis considérables. Les approches basées sur les Transformers et reposant sur la propagation de requêtes offrent des perspectives prometteuses, mais elles s'accompagnent d'une complexité mémoire quadratique liée à l'attention. De plus, elles sont sensibles à la dégradation des caractéristiques des instances en raison des défis mentionnés ci-dessus, et souffrent d'effets en cascade. La détection et la correction de ces erreurs restent largement sous-exploitées. À cet effet, nous introduisons \textbf{GRAtt-VIS}, \textbf{G}ated \textbf{R}esidual \textbf{Att}ention pour \textbf{V}ideo \textbf{I}nstance \textbf{S}egmentation. Premièrement, nous utilisons une porte basée sur Gumbel-Softmax pour détecter les erreurs potentielles dans le cadre actuel. Ensuite, en se basant sur l’activation de cette porte, nous corrigeons les caractéristiques dégradées à partir de leurs représentations passées. Cette configuration résiduelle réduit la nécessité de mémoire dédiée et assure un flux continu de caractéristiques d’instances pertinentes. Deuxièmement, nous proposons une nouvelle interaction inter-instances en utilisant l’activation de la porte comme masque dans l’attention auto. Cette stratégie de masquage restreint dynamiquement les requêtes d’instances non représentatives dans l’attention auto, préservant ainsi les informations essentielles pour un suivi à long terme. Nous désignons cette combinaison originale de connexion résiduelle à porte et d’attention auto masquée par le bloc \textbf{GRAtt}, qui peut être facilement intégré dans les cadres existants basés sur la propagation. En outre, les blocs GRAtt réduisent significativement la charge d’attention et simplifient la modélisation temporelle dynamique. GRAtt-VIS atteint des performances de pointe sur les jeux de données YouTube-VIS et OVIS, qui est particulièrement exigeant, surpassant nettement les méthodes antérieures. Le code est disponible à l’adresse \url{https://github.com/Tanveer81/GRAttVIS}.