GroupViT : La segmentation sémantique émerge de la supervision textuelle

Le regroupement et la reconnaissance sont des composants importants de la compréhension des scènes visuelles, par exemple pour la détection d'objets et la segmentation sémantique. Avec les systèmes d'apprentissage profond de bout en bout, le regroupement des régions d'image se produit généralement implicitement grâce à une supervision descendante à partir des étiquettes de reconnaissance au niveau des pixels. Dans cet article, nous proposons de réintroduire le mécanisme de regroupement dans les réseaux profonds, ce qui permet aux segments sémantiques d'émerger automatiquement avec une supervision uniquement textuelle. Nous proposons un Grouping Vision Transformer hiérarchique (GroupViT), qui dépasse la représentation structurée en grille régulière et apprend à regrouper les régions d'image en segments de formes arbitraires progressivement plus grands. Nous entraînons GroupViT conjointement avec un encodeur textuel sur un grand ensemble de données image-texte via des pertes contrastives. Avec une supervision uniquement textuelle et sans aucune annotation au niveau des pixels, GroupViT apprend à regrouper les régions sémantiques et réussit à transférer sa capacité à la tâche de segmentation sémantique de manière zéro-shot, c'est-à-dire sans aucun ajustement fin supplémentaire. Il atteint une précision zéro-shot de 52,3 % mIoU sur l'ensemble de données PASCAL VOC 2012 et 22,4 % mIoU sur l'ensemble de données PASCAL Context, et se compare favorablement aux méthodes d'apprentissage par transfert les plus avancées nécessitant des niveaux plus élevés de supervision. Nous mettons notre code en open source sur https://github.com/NVlabs/GroupViT .