Verbesserung der Übertragbarkeit für domainspezifische Detektions-Transformers

DETR-artige Detektoren zeichnen sich in Szenarien innerhalb des Trainingsdomains aus, ihre Eigenschaften jedoch unter Bedingungen von Domänenverschiebung wurden bisher kaum untersucht. In dieser Arbeit wird ein einfacher, aber wirksamer Baseline-Ansatz mit einem DETR-artigen Detektor für Szenarien mit Domänenverschiebung vorgestellt, basierend auf zwei zentralen Erkenntnissen. Erstens führt die Reduktion der Domänenverschiebung sowohl in den Feature-Ausgaben des Backbone-Netzwerks als auch im Decoder zu signifikanten Verbesserungen der Ergebnisse. Zweitens steigert die Anwendung fortgeschrittener Domänenanpassungsmethoden in beiden Komponenten die Leistung weiter. Darauf aufbauend schlagen wir zwei neue Module vor: das Object-Aware Alignment (OAA)-Modul und das Optimal Transport-basierte Alignment (OTA)-Modul, um eine umfassende Domänenanpassung an den Ausgaben des Backbone-Netzwerks und des Detektors zu erreichen. Das OAA-Modul aligniert die von Pseudolabels identifizierten Vordergrundregionen in den Backbone-Ausgaben, wodurch dominanzunabhängige Merkmale entstehen. Das OTA-Modul nutzt die geschnittene Wasserstein-Distanz, um die Erhaltung räumlicher Informationen im Decoder-Ausgang zu maximieren, gleichzeitig aber den Domänenabstand zu minimieren. Wir integrieren diese Erkenntnisse und die beiden Alignment-Module in unsere Anpassungsmethode, die als Benchmark für DETR-artige Detektoren unter Bedingungen von Domänenverschiebung dient. Experimente in verschiedenen adaptiven Domänen-Szenarien bestätigen die Wirksamkeit unseres Ansatzes.