Segmentation rapide d'objets vidéo à l'aide du module de contexte global

Nous avons développé un algorithme en temps réel, à haute qualité, pour la segmentation d’objets vidéo en mode semi-supervisé. Sa précision est équivalente à celle du modèle en ligne le plus précis, bien que celui-ci soit très coûteux en temps, tandis que sa vitesse se rapproche de celle de la méthode la plus rapide basée sur le matching de modèles, même si cette dernière présente une précision sous-optimale. Le composant central du modèle est un nouveau module de contexte global, qui permet efficacement de résumer et de propager l’information à travers l’intégralité de la vidéo. Contrairement aux approches précédentes, qui ne s’appuient que sur une ou quelques images pour guider la segmentation de l’image courante, le module de contexte global exploite toutes les images antérieures. À la différence du réseau d’architecture d’état de l’art, le réseau mémoire espace-temps, qui stocke une mémoire à chaque position spatio-temporelle, le module de contexte global utilise une représentation fonctionnelle de taille fixe. Il consomme donc une mémoire constante, indépendamment de la longueur de la vidéo, et nécessite significativement moins de mémoire et de calcul. Grâce à ce module innovant, notre modèle atteint des performances de pointe sur les benchmarks standards, tout en opérant à vitesse temps réel.