Verbesserung der Objekterkennung durch lokales-globales kontrastives Lernen

Visuelle Domänenunterschiede beeinflussen häufig die Leistung der Objekterkennung. Bild-zu-Bild-Übersetzung kann diesen Effekt mindern, wobei kontrastbasierte Ansätze das Lernen der Bild-zu-Bild-Abbildung unter unüberwachten Bedingungen ermöglichen. Dennoch scheitern bestehende Methoden oft daran, inhaltsreiche Szenen mit mehreren Objektinstanzen zu verarbeiten, was sich in unbefriedigenden Erkennungsleistungen äußert. Die Sensibilität für solche instanzbezogene Inhalte wird in der Regel nur durch Objektannotierungen erreicht, die teuer zu erstellen sind. Um dieses Problem anzugehen, präsentieren wir eine neuartige Bild-zu-Bild-Übersetzungsmethode, die sich speziell auf die cross-domain Objekterkennung (cross-domain object detection) konzentriert. Unser Ansatz basiert auf einem kontrastbasierten Lernrahmen mit einem induktiven Prior, der durch räumliche Aufmerksamkeitsmasken (spatial attention masks) das Erscheinungsbild von Objektinstanzen optimiert und die Szene implizit in Vordergrundregionen, die den Zielobjektinstanzen zugeordnet sind, und Hintergrundregionen ohne Objekte unterteilt. Anstatt auf Objektannotierungen zu setzen, um während der Übersetzung explizit Objektinstanzen zu berücksichtigen, lernt unser Ansatz, Objekte durch den Kontrast zwischen lokalen und globalen Informationen darzustellen. Dies ermöglicht es uns, eine bisher wenig untersuchte Herausforderung zu erforschen: die Erreichung einer leistungsfähigen Erkennung bei Domänenverschiebungen ohne auf Objektannotierungen oder Feinabstimmung des Detektormodells zurückzugreifen. Wir führen Experimente in verschiedenen cross-domain Objekterkennungs-Szenarien durch und melden dabei Spitzenleistungen auf drei anspruchsvollen Benchmarks.Projektseite: https://local-global-detection.github.io