HyperAIHyperAI
vor 2 Monaten

GroupViT: Semantische Segmentierung entsteht aus textbasierter Überwachung

Jiarui Xu; Shalini De Mello; Sifei Liu; Wonmin Byeon; Thomas Breuel; Jan Kautz; Xiaolong Wang
GroupViT: Semantische Segmentierung entsteht aus textbasierter Überwachung
Abstract

Gruppierung und Erkennung sind wichtige Bestandteile der visuellen Szenerkennung, beispielsweise für Objekterkennung und semantische Segmentierung. Mit end-to-end tiefen Lernsystemen erfolgt die Gruppierung von Bildbereichen in der Regel implizit durch top-down Überwachung mittels Pixel-Level-Erkennungslabels. In diesem Artikel schlagen wir vor, den Gruppierungsmechanismus wieder in tiefe Netzwerke zu integrieren, was es ermöglicht, dass semantische Segmente allein unter Textüberwachung automatisch entstehen. Wir stellen einen hierarchischen Grouping Vision Transformer (GroupViT) vor, der über die übliche Gitterstruktur hinausgeht und lernt, Bildbereiche in fortschreitend größere beliebig geformte Segmente zu gruppieren. GroupViT wird gemeinsam mit einem Textencoder auf einem groß angelegten Bild-Text-Datensatz durch kontrastive Verlustfunktionen trainiert. Unter ausschließlicher Textüberwachung und ohne jegliche Pixel-Level-Annotierungen lernt GroupViT, semantische Bereiche zusammenzufassen und erfüllt die Aufgabe der semantischen Segmentierung auf zero-shot-Basis erfolgreich, d.h. ohne weitere Feinabstimmung. Es erreicht eine zero-shot Genauigkeit von 52,3 % mIoU auf dem PASCAL VOC 2012 Datensatz und 22,4 % mIoU auf dem PASCAL Context Datensatz und leistet wettbewerbsfähig im Vergleich zu den besten Transfer-Lernmethoden, die höhere Überwachungsgrade erfordern. Unser Code ist Open Source und steht unter https://github.com/NVlabs/GroupViT zur Verfügung.

GroupViT: Semantische Segmentierung entsteht aus textbasierter Überwachung | Neueste Forschungsarbeiten | HyperAI