Einzel-Domain-verallgemeinerte Objektdetektion in urbanen Szenen mittels zyklisch-entkoppelter Selbst-Distillation

In diesem Paper befassen wir uns mit der Verbesserung der Generalisierungsfähigkeit von Objektdetektoren. Dabei betrachten wir eine realistische, jedoch herausfordernde Szenario, nämlich Single-Domain Generalized Object Detection (Single-DGOD), das darauf abzielt, einen Objektdetektor zu lernen, der auf vielen unbekannten Zielbereichen gut funktioniert, wobei lediglich ein einziger Quellbereich für das Training zur Verfügung steht. Im Kontext von Single-DGOD ist es entscheidend, domain-invariante Darstellungen (DIR) zu extrahieren, die inhärente Objektmerkmale enthalten, da dies die Robustheit gegenüber unbekannten Domänen fördert. Daher stellen wir eine Methode vor, nämlich zyklisch-disentangled Self-Distillation, um DIR von domain-spezifischen Darstellungen zu trennen, ohne dass domainbezogene Annotationen (z. B. Domain-Labels) zur Verfügung stehen. Konkret wird zunächst ein zyklisch-disentangled Modul vorgestellt, das zyklisch DIR aus den Eingabebildmerkmalen extrahiert. Durch die zyklische Operation kann die Trennfähigkeit verbessert werden, ohne auf domainbezogene Annotationen angewiesen zu sein. Anschließend nutzen wir die DIR als Lehrer und entwerfen ein Self-Distillation-Modul, um die Generalisierungsfähigkeit weiter zu steigern. In den Experimenten wird unsere Methode im Bereich der Objektdetektion in städtischen Szenen evaluiert. Die Ergebnisse für fünf unterschiedliche Wetterbedingungen zeigen, dass unsere Methode gegenüber Baseline-Methoden eine signifikante Leistungssteigerung erzielt. Insbesondere erreicht unsere Methode für die Szene „Nacht-Sonnig“ eine Verbesserung um 3 % gegenüber den Baselines, was belegt, dass unsere Methode besonders wirksam bei der Verbesserung der Generalisierungsfähigkeit ist. Daten und Code sind unter https://github.com/AmingWu/Single-DGOD verfügbar.