HyperAIHyperAI
vor 3 Monaten

Kontrastives Lernen und Selbsttraining für unüberwachte Domänenanpassung in der semantischen Segmentierung

Robert A. Marsden, Alexander Bartler, Mario Döbler, Bin Yang
Kontrastives Lernen und Selbsttraining für unüberwachte Domänenanpassung in der semantischen Segmentierung
Abstract

Tiefere konvolutionelle neuronale Netze haben die Ergebnisse der semantischen Segmentierung erheblich verbessert. Dennoch verfügen selbst moderne Architekturen über eine geringe Fähigkeit, gut auf Testdatensätze aus einem anderen Domänenbereich zu generalisieren. Um die kostspielige Annotation von Trainingsdaten für unbekannte Domänen zu vermeiden, versucht die unsupervised domain adaptation (UDA), effizientes Wissenstransfer von einer beschrifteten Quelldomäne zu einer unbeschrifteten Ziel-Domäne zu ermöglichen. Frühere Arbeiten konzentrierten sich hauptsächlich darauf, die Diskrepanz zwischen den beiden Domänen durch adversariales Lernen oder Selbsttraining zu minimieren. Während adversiales Lernen scheitern kann, die korrekten semantischen Kategorien auszurichten, da es lediglich die Diskrepanz zwischen den globalen Verteilungen minimiert, wirft das Selbsttraining die Frage auf, wie zuverlässige Pseudolabels generiert werden können. Um die korrekten semantischen Kategorien zwischen den Domänen auszurichten, schlagen wir einen Ansatz basierend auf kontrastivem Lernen vor, der kategorieweise Zentroide zwischen den Domänen anpasst. Darüber hinaus erweitern wir unsere Methode um Selbsttraining, wobei wir eine speicher-effiziente zeitliche Ensembles-Methode nutzen, um konsistente und zuverlässige Pseudolabels zu erzeugen. Obwohl sowohl kontrastives Lernen als auch Selbsttraining (CLST) durch zeitliche Ensembles einen Wissenstransfer zwischen den beiden Domänen ermöglichen, führt erst ihre Kombination zu einer symbiotischen Struktur. Wir validieren unseren Ansatz an zwei Benchmark-Datenbanken für Domänenanpassung: GTA5 → Cityscapes und SYNTHIA → Cityscapes. Unsere Methode erzielt Ergebnisse, die entweder besser oder mit den besten aktuellen Methoden vergleichbar sind. Wir werden den Quellcode öffentlich zugänglich machen.