ISTR : Segmentations d'instances bout-en-bout basée sur les Transformers

Les paradigmes end-to-end améliorent significativement la précision de divers modèles de vision par ordinateur basés sur les réseaux de neurones profonds. À cet effet, des tâches telles que la détection d’objets ont été améliorées en remplaçant les composants non end-to-end, par exemple en éliminant la suppression non maximale (non-maximum suppression) en entraînant avec une perte basée sur un appariement biparti. Toutefois, une telle amélioration n’est pas applicable à la segmentation d’instances, en raison de ses dimensions de sortie nettement plus élevées par rapport à la détection d’objets. Dans cet article, nous proposons un Transformer pour la segmentation d’instances, nommé ISTR, qui constitue le premier cadre end-to-end de ce type. ISTR prédit des embeddings de masques à faible dimension, puis les apparie aux embeddings de masques vérité terrain afin d’appliquer une perte sur ensemble. En outre, ISTR effectue simultanément la détection et la segmentation grâce à une stratégie itérative de raffinement, offrant ainsi une nouvelle approche pour la segmentation d’instances par rapport aux cadres existants de type haut-bas ou bas-haut. Grâce au mécanisme end-to-end proposé, ISTR atteint des performances de pointe, même avec des embeddings sous-optimaux basés sur des approximations. Plus précisément, ISTR obtient un AP boîte/masque de 46,8/38,6 en utilisant ResNet50-FPN, et un AP boîte/masque de 48,1/39,9 en utilisant ResNet101-FPN sur le jeu de données MS COCO. Les résultats quantitatifs et qualitatifs révèlent le fort potentiel d’ISTR comme base solide pour la reconnaissance au niveau des instances. Le code source est disponible à l’adresse suivante : https://github.com/hujiecpp/ISTR.