InstanceFormer : un cadre pour la segmentation d'instances vidéo en temps réel

Les approches récentes basées sur les transformateurs pour la segmentation d’instances vidéo hors ligne (VIS) obtiennent des résultats prometteurs et surpassent significativement les méthodes en ligne. Toutefois, leur dépendance à l’ensemble de la vidéo ainsi que la complexité computationnelle élevée induite par l’attention spatio-temporelle complète limitent leur application dans des scénarios réels, notamment le traitement de vidéos longues. Dans cet article, nous proposons un cadre efficace en ligne basé sur les transformateurs, à une seule phase, nommé InstanceFormer, particulièrement adapté aux vidéos longues et complexes. Nous introduisons trois composants novateurs pour modéliser les dépendances à court et à long terme ainsi que la cohérence temporelle. Premièrement, nous propageons les représentations, les localisations et les informations sémantiques des instances précédentes afin de capturer les changements à court terme. Deuxièmement, nous proposons une nouvelle attention croisée mémoire dans le décodeur, permettant au réseau d’accéder aux instances antérieures au sein d’une fenêtre temporelle donnée. Enfin, nous utilisons une perte contrastive temporelle pour imposer une cohérence dans la représentation d’une même instance à travers toutes les trames. L’attention mémoire et la cohérence temporelle sont particulièrement bénéfiques pour la modélisation des dépendances à longue portée, y compris dans des scénarios difficiles tels que l’occlusion. InstanceFormer surpasse largement les méthodes en ligne précédentes sur plusieurs jeux de données. Plus important encore, InstanceFormer dépasse même les approches hors ligne sur des jeux de données complexes et longs tels que YouTube-VIS-2021 et OVIS. Le code est disponible à l’adresse suivante : https://github.com/rajatkoner08/InstanceFormer.