RANet : Réseau d'Attention de Classement pour une Segmentation Rapide d'Objets Vidéo

Bien que les techniques d'apprentissage en ligne (OL) aient amélioré les performances des méthodes de segmentation semi-supervisée d'objets vidéo (VOS), les coûts temporels importants de l'OL limitent considérablement leur praticité. Les méthodes basées sur le correspondance et la propagation fonctionnent à une vitesse plus rapide en évitant les techniques OL. Cependant, elles sont limitées par une précision sous-optimale, en raison des problèmes de mauvaise correspondance et de dérive. Dans cet article, nous développons un réseau de neurones à attention de classement (RANet) en temps réel et très précis pour la VOS. Plus précisément, pour intégrer les apports des méthodes basées sur le correspondance et la propagation, nous utilisons un cadre encodeur-décodeur pour apprendre la similarité au niveau des pixels et la segmentation de manière end-to-end. Pour exploiter au mieux les cartes de similarité, nous proposons un nouveau module d'attention de classement qui sélectionne automatiquement ces cartes pour une performance fine-grained en VOS. Les expériences menées sur les jeux de données DAVIS-16 et DAVIS-17 montrent que notre RANet atteint le meilleur compromis entre vitesse et précision, par exemple avec 33 millisecondes par image et J&F=85,5% sur DAVIS-16. Avec l'OL, notre RANet atteint J&F=87,1% sur DAVIS-16, surpassant ainsi les méthodes VOS de pointe actuelles. Le code est disponible à l'adresse suivante : https://github.com/Storife/RANet.