HyperAIHyperAI

Command Palette

Search for a command to run...

WeakTr: Untersuchung des einfachen Vision Transformer für schwach überwachte semantische Segmentierung

Lianghui Zhu Yingyue Li Jiemin Fang Yan Liu Hao Xin Wenyu Liu Xinggang Wang

Zusammenfassung

Diese Arbeit untersucht die Eigenschaften des einfachen Vision Transformer (ViT) für die schwach überwachte semantische Segmentierung (WSSS). Die Class Activation Map (CAM) ist von entscheidender Bedeutung, um ein Klassifikationsnetzwerk zu verstehen und WSSS zu ermöglichen. Wir beobachten, dass verschiedene Aufmerksamkeitsköpfe des ViT sich auf unterschiedliche Bildbereiche konzentrieren. Daher wird ein neuartiges gewichtsbasiertes Verfahren vorgeschlagen, um die Bedeutung der Aufmerksamkeitsköpfe end-to-end zu schätzen, während die Selbst-Aufmerksamkeitskarten adaptiv verschmolzen werden, um hochwertige CAM-Ergebnisse zu erzielen, die tendenziell vollständigere Objekte darstellen. Zusätzlich wird ein auf ViT basierender Gradient-Clipping-Decoder vorgestellt, der für das Online-Neu-Trainieren mit den CAM-Ergebnissen genutzt wird, um die WSSS-Aufgabe abzuschließen. Wir bezeichnen diesen einfachen Transformer-basierten Rahmen für schwach überwachtes Lernen als WeakTr. Er erreicht die aktuell beste Leistung bei WSSS auf Standardbenchmarks, nämlich 78,4 % mIoU auf dem Val-Set des PASCAL VOC 2012 und 50,3 % mIoU auf dem Val-Set des COCO 2014. Der Quellcode ist unter https://github.com/hustvl/WeakTr verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp