Domainadaptive und generalisierbare Netzarchitekturen sowie Trainingsstrategien für die semantische Bildsegmentierung

Unsupervised Domain Adaptation (UDA) und Domain Generalization (DG) ermöglichen es maschinellen Lernmodellen, die auf einem Quelldomäne trainiert wurden, auch auf unlabeled oder sogar unbekannten Zielbereichen gut zu performen. Da bisherige UDA&DG-Methoden für die semantische Segmentierung überwiegend auf veralteten Netzarchitekturen basieren, evaluieren wir neuere Architekturen, zeigen das Potenzial von Transformers auf und entwerfen das DAFormer-Netzwerk, das speziell für UDA&DG optimiert ist. Dieses wird durch drei Trainingsstrategien ermöglicht, um eine Überanpassung an die Quelldomäne zu vermeiden: Während (1) die seltene-Klasse-Probenahme den Bias gegenüber häufigen Klassen in der Quelldomäne reduziert, fördern (2) die Thing-Klassen-ImageNet-Feature-Distanz und (3) ein Lernrate-Warmup die Übertragung von Merkmalen aus der ImageNet-Vortrainierung. Da UDA&DG typischerweise starken GPU-Speicherverbrauch erfordern, skalierten die meisten vorherigen Methoden Bilder herunter oder schneideten sie ab. Allerdings führen niedrigauflösende Vorhersagen oft dazu, dass feine Details verloren gehen, während Modelle, die mit abgeschnittenen Bildern trainiert wurden, Schwierigkeiten haben, langreichweitige, domainschutzfeste Kontextinformationen zu erfassen. Daher schlagen wir HRDA vor – einen mehrdimensionalen Rahmen für UDA&DG –, der die Stärken kleiner, hochauflösender Ausschnitte nutzt, um feine Segmentierungsdetails zu bewahren, und großer, niedrigauflösender Ausschnitte, um langreichweitige Kontextabhängigkeiten zu erfassen, wobei eine gelernte Skalen-Attention die Integration beider Ansätze ermöglicht. DAFormer und HRDA verbessern die derzeit beste Leistung in UDA&DG um mehr als 10 mIoU auf fünf verschiedenen Benchmarks. Die Implementierung ist unter https://github.com/lhoyer/HRDA verfügbar.