Minimalistische und leistungsstarke semantische Segmentierung mit einfachen Vision Transformers

Im Anschluss an die Masked Image Modeling (MIM)-Bewegung wurden eine Vielzahl an einfachen, nicht-hierarchischen Vision Transformer (ViT)-Modellen mit umfangreichen Datensätzen vortrainiert, was neue Paradigmen und erhebliches Potenzial für die semantische Segmentierung eröffnet. Aktuelle State-of-the-Art-Systeme integrieren zahlreiche induktive Voreingenommenheiten und nutzen komplizierte Dekoder. Ausgehend von den ursprünglichen Motivationen einfacher ViTs – nämlich Einfachheit und Allgemeingültigkeit – erforschen wir hier hochleistungsfähige, „minimalistische“ Systeme. Unser primäres Ziel ist es, einfache und effiziente Baselines für die praktische semantische Segmentierung mit einfachen ViTs bereitzustellen. Insbesondere untersuchen wir zunächst die Machbarkeit und Methodik, hochleistungsfähige semantische Segmentierung mithilfe der letzten Feature-Karte zu erreichen. Als Ergebnis stellen wir PlainSeg vor, ein Modell, das neben den Transformer-Schichten (entweder Encoder oder Decoder) lediglich aus drei 3×3-Convolutionen besteht. In diesem Prozess liefern wir Erkenntnisse zu zwei zugrundeliegenden Prinzipien: (i) hochauflösende Features sind entscheidend für hohe Leistung, selbst bei Verwendung einfacher Aufsampling-Techniken, und (ii) ein schlanker Transformer-Dekoder erfordert eine deutlich größere Lernrate als ein breiter Transformer-Dekoder. Auf dieser Grundlage präsentieren wir weiterhin PlainSeg-Hier, das die Nutzung hierarchischer Features ermöglicht. Umfangreiche Experimente an vier gängigen Benchmarks belegen die hohe Leistungsfähigkeit und Effizienz unserer Ansätze. Zudem eignen sich diese Methoden hervorragend als Werkzeuge zur Bewertung der Übertragbarkeit grundlegender Modelle in der semantischen Segmentierung. Der Quellcode ist unter \url{https://github.com/ydhongHIT/PlainSeg} verfügbar.