Anpassung von Objektdetektoren durch selektive cross-domain-Ausrichtung

Stand der Technik befindliche Objektdetektoren werden typischerweise auf öffentlichen Datensätzen trainiert. Bei der Anwendung auf einen anderen Domänenbereich, in dem die Abbildungsbedingungen erheblich abweichen und entsprechende annotierte Daten nicht verfügbar (oder sehr kostspielig zu beschaffen) sind, stoßen sie häufig auf erhebliche Schwierigkeiten. Ein naheliegender Ansatz zur Überwindung dieses Problems besteht darin, das Modell durch Anpassung der Bilddarstellungen in beiden Domänen zu verfeinern. Dies kann beispielsweise mittels adversarischer Lernverfahren erreicht werden und hat sich in Aufgaben wie der Bildklassifikation als wirksam erwiesen. Wir konnten jedoch feststellen, dass die Verbesserung, die auf diese Weise in der Objektdetektion erzielt wird, recht begrenzt ist. Ein wesentlicher Grund hierfür liegt darin, dass herkömmliche Methoden zur Domänenanpassung darauf abzielen, die Bilder insgesamt zu alignen, während die Objektdetektion per se auf lokale Regionen fokussiert ist, die Objekte von Interesse enthalten können. Ausgehend von dieser Erkenntnis schlagen wir einen neuartigen Ansatz zur Domänenanpassung für die Objektdetektion vor, um die Herausforderungen in Bezug auf „Wo zu suchen?“ und „Wie zu alignen?“ zu bewältigen. Unser zentraler Ansatz besteht darin, diskriminative Regionen zu identifizieren – jene Bereiche, die direkt mit der Objektdetektion verbunden sind – und diese gezielt über beide Domänen hinweg zu alignen. Experimente zeigen, dass die vorgeschlagene Methode im Vergleich zu bestehenden Ansätzen erheblich besser abschneidet und bei verschiedenen Domänenverschiebungen eine Verbesserung von etwa 4 % bis 6 % erzielt, wobei gleichzeitig eine gute Skalierbarkeit gewährleistet bleibt.