vor 11 Tagen

WeakTr: Untersuchung des einfachen Vision Transformer für schwach überwachte semantische Segmentierung

Lianghui Zhu, Yingyue Li, Jiemin Fang, Yan Liu, Hao Xin, Wenyu Liu, Xinggang Wang

Abstract

Diese Arbeit untersucht die Eigenschaften des einfachen Vision Transformer (ViT) für die schwach überwachte semantische Segmentierung (WSSS). Die Class Activation Map (CAM) ist von entscheidender Bedeutung, um ein Klassifikationsnetzwerk zu verstehen und WSSS zu ermöglichen. Wir beobachten, dass verschiedene Aufmerksamkeitsköpfe des ViT sich auf unterschiedliche Bildbereiche konzentrieren. Daher wird ein neuartiges gewichtsbasiertes Verfahren vorgeschlagen, um die Bedeutung der Aufmerksamkeitsköpfe end-to-end zu schätzen, während die Selbst-Aufmerksamkeitskarten adaptiv verschmolzen werden, um hochwertige CAM-Ergebnisse zu erzielen, die tendenziell vollständigere Objekte darstellen. Zusätzlich wird ein auf ViT basierender Gradient-Clipping-Decoder vorgestellt, der für das Online-Neu-Trainieren mit den CAM-Ergebnissen genutzt wird, um die WSSS-Aufgabe abzuschließen. Wir bezeichnen diesen einfachen Transformer-basierten Rahmen für schwach überwachtes Lernen als WeakTr. Er erreicht die aktuell beste Leistung bei WSSS auf Standardbenchmarks, nämlich 78,4 % mIoU auf dem Val-Set des PASCAL VOC 2012 und 50,3 % mIoU auf dem Val-Set des COCO 2014. Der Quellcode ist unter https://github.com/hustvl/WeakTr verfügbar.