Ein unsupervisiertes Domänenanpassungsverfahren für einstufige Kunstwerkerkennung in kulturellen Stätten

Die Erkennung von Kunstwerken in kulturellen Stätten mithilfe von Bildern, die aus der Perspektive des Nutzers (First Person Vision) aufgenommen wurden, ermöglicht die Entwicklung interessanter Anwendungen sowohl für Besucher als auch für die Verwaltung solcher Stätten. Allerdings benötigen aktuelle Objekterkennungsalgorithmen, die in vollständig überwachten Szenarien arbeiten, große Mengen an gelabelten Daten zur Trainingsphase, deren Sammlung erhebliche Zeit und hohe Kosten verursacht, um eine gute Leistung zu erzielen. Die Verwendung synthetischer Daten, die aus 3D-Modellen der kulturellen Stätten generiert werden, kann diese Kosten reduzieren. Andererseits zeigt sich bei der Testung solcher Modelle mit realen Bildern ein signifikanter Leistungsabfall, bedingt durch die Unterschiede zwischen realen und synthetischen Bildern. In dieser Studie betrachten wir das Problem der unsupervisierten Domänenanpassung (Unsupervised Domain Adaptation) für die Objekterkennung in kulturellen Stätten. Um dieses Problem anzugehen, haben wir einen neuen Datensatz erstellt, der sowohl synthetische als auch reale Bilder von 16 verschiedenen Kunstwerken enthält. Anschließend haben wir verschiedene Techniken zur Domänenanpassung untersucht, die auf Ein- und Zweistufen-Objekterkennern, Bild-zu-Bild-Übersetzungen sowie Merkmalsausrichtung basieren. Aufgrund der Beobachtung, dass Einstufen-Detektoren in den betrachteten Szenarien robuster gegenüber Domänenverschiebungen sind, haben wir eine neue Methode vorgeschlagen, die auf RetinaNet und Merkmalsausrichtung basiert und als DA-RetinaNet bezeichnet wird. Der vorgeschlagene Ansatz erzielt auf dem vorgestellten Datensatz sowie auf Cityscapes bessere Ergebnisse als vergleichbare Methoden. Um die Forschung in diesem Bereich zu unterstützen, stellen wir den Datensatz unter folgendem Link zur Verfügung: https://iplab.dmi.unict.it/EGO-CH-OBJ-UDA/ und den Quellcode der vorgeschlagenen Architektur unter: https://github.com/fpv-iplab/DA-RetinaNet.