UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer durch hierarchische Maskenkalibrierung

Domain-adaptives Panoptic Segmentation zielt darauf ab, die Herausforderung der Datenannotierung zu verringern, indem bereits vorhandene annotierte Daten aus einem oder mehreren verwandten Quellbereichen genutzt werden. Bisherige Ansätze setzen jedoch zwei getrennte Netzwerke für die Instance-Segmentation und die Semantic-Segmentation ein, was zu einer übermäßigen Anzahl an Netzwerkparametern sowie zu komplizierten und rechenintensiven Trainings- und Inferenzprozessen führt. Wir stellen UniDAformer vor, einen einheitlichen, domain-adaptiven Transformer für das Panoptic Segmentation, der einfach ist, aber gleichzeitig domain-adaptive Instance- und Semantic-Segmentation innerhalb eines einzigen Netzwerks ermöglicht. UniDAformer führt Hierarchical Mask Calibration (HMC) ein, das ungenaue Vorhersagen auf Ebene von Regionen, Superpixeln und Pixeln durch on-the-fly-Online-Selbsttraining korrigiert. Die Methode weist drei einzigartige Merkmale auf: 1) sie ermöglicht eine einheitliche, domain-adaptive Panoptic-Adaption; 2) sie reduziert Falschvorhersagen effektiv und verbessert die Qualität der domain-adaptiven Panoptic-Segmentation; 3) sie ist end-to-end trainierbar und verfügt über einen deutlich vereinfachten Trainings- und Inferenzprozess. Umfangreiche Experimente an mehreren öffentlichen Benchmarks zeigen, dass UniDAformer gegenüber den derzeit besten Ansätzen eine überlegene Leistung bei domain-adaptivem Panoptic Segmentation erzielt.