vor 2 Monaten

PiPa: Pixel- und Patch-basiertes selbstüberwachtes Lernen für domänenadaptives semantisches Segmentieren

Mu Chen; Zhedong Zheng; Yi Yang; Tat-Seng Chua

Abstract

Die Unüberwachte Domänenanpassung (UDA) zielt darauf ab, die Generalisierungsfähigkeit des gelernten Modells auf andere Domänen zu verbessern. Das domäneninvariante Wissen wird vom Modell übertragen, das auf der etikettierten Quelldomäne trainiert wurde, z.B. Videospiele, in nicht etikettierte Zieldomänen, wie beispielsweise reale Szenarien, um Annotationskosten zu sparen. Bestehende UDA-Methoden für semantische Segmentierung konzentrieren sich in der Regel darauf, die Differenz zwischen verschiedenen Ebenen der Domänen, wie Pixeln, Merkmalen und Vorhersagen, zu minimieren, um domäneninvariantes Wissen zu extrahieren. Allerdings bleibt das primäre innerdomänische Wissen, wie Kontextkorrelationen innerhalb eines Bildes, weitgehend unerforscht. Um diese Lücke zu schließen, schlagen wir ein vereintes pixel- und patchbasiertes selbstüberwachtes Lernframework vor, das PiPa genannt wird und die Korrelationen zwischen Bildpixeln sowie die semantische Konsistenz von Bildstücken unter verschiedenen Kontexten bei der domänenadaptiven semantischen Segmentierung fördert. Das vorgeschlagene Framework nutzt die inhärenten Strukturen innerdomänischer Bilder aus:(1) Es ermutigt explizit zum Lernen diskriminativer pixelbasierter Merkmale mit Kompaktheit innerhalb derselben Klasse und Trennbarkeit zwischen verschiedenen Klassen.(2) Es fördert das robuste Lernen identischer Patch-Merkmale unter verschiedenen Kontexten oder Schwankungen.Umfangreiche Experimente bestätigen die Effektivität der vorgeschlagenen Methode, die wettbewerbsfähige Genauigkeiten auf zwei weit verbreiteten UDA-Benchmarks erzielt: 75,6 mIoU von GTA nach Cityscapes und 68,2 mIoU von Synthia nach Cityscapes. Darüber hinaus ist unsere Methode mit anderen UDA-Ansätzen kompatibel und kann deren Leistung ohne zusätzliche Parameter weiter verbessern.