Selbstüberwachtes Lernen von Objektteilen für die semantische Segmentierung

Fortschritte im selbstüberwachten Lernen haben starke Methoden zur allgemeinen Bildrepräsentationslernung hervorgebracht. Bisher hat sich dieser Ansatz jedoch hauptsächlich auf lernbasierte Bildrepräsentationen auf Bildebene konzentriert. Im Gegensatz dazu haben Aufgaben wie die unsupervisierte Bildsegmentierung von diesem Trend bisher wenig profitiert, da sie räumlich vielfältige Darstellungen erfordern. Die Lernung dichter (dense) Repräsentationen ist jedoch herausfordernd, da im unsupervisierten Kontext unklar ist, wie das Modell dahingehend geleitet werden kann, Repräsentationen zu lernen, die verschiedenen potenziellen Objektklassen entsprechen. In diesem Paper argumentieren wir, dass das selbstüberwachte Lernen von Objektteilen eine Lösung für dieses Problem darstellt. Objektteile sind verallgemeinerungsfähig: Sie sind a priori unabhängig von einer spezifischen Objektdefinition, können aber a posteriori zu Objekten zusammengesetzt werden. Dazu nutzen wir die kürzlich vorgeschlagene Fähigkeit des Vision Transformers, sich auf Objekte zu konzentrieren, und kombinieren sie mit einer räumlich dichten Clustering-Aufgabe zur Feinabstimmung der räumlichen Tokens. Unser Ansatz erreicht auf drei Benchmarks für semantische Segmentierung Spitzenleistungen, die um 17 % bis 3 % über den bisherigen State-of-the-Art liegen, was zeigt, dass unsere Repräsentationen unter verschiedenen Objektdefinitionen vielseitig einsetzbar sind. Schließlich erweitern wir unseren Ansatz auf die vollständig unsupervised Segmentierung – bei der selbst zur Testzeit keine Label-Informationen verwendet werden – und zeigen, dass eine einfache Methode zur automatischen Zusammenführung entdeckter Objektteile basierend auf Community-Detection erhebliche Verbesserungen erzielt.