HyperAI
vor 3 Tagen

Anpassung von Fahrzeugdetektoren für Luftbilder an unbekannte Domänen mit schwacher Aufsicht

Xiao Fang; Minhyek Jeon; Zheyang Qin; Stanislav Panev; Celso de Melo; Shuowen Hu; Shayok Chakraborty; Fernando De la Torre
Anpassung von Fahrzeugdetektoren für Luftbilder an unbekannte Domänen mit schwacher Aufsicht
Abstract

Die Erkennung von Fahrzeugen in Luftbildern ist eine zentrale Aufgabe mit Anwendungen in der Verkehrsüberwachung, der Stadtplanung und der Verteidigungsaufklärung. Deep-Learning-Methoden haben für diese Anwendung bisher die state-of-the-art (SOTA)-Ergebnisse erzielt. Ein erheblicher Herausforderung ergibt sich jedoch, wenn Modelle, die auf Daten aus einer geografischen Region trainiert wurden, nicht effektiv auf andere Gebiete verallgemeinert werden können. Unterschiede in Faktoren wie Umweltbedingungen, Stadtstrukturen, Straßennetzen, Fahrzeugtypen sowie Bilddatenerfassungsparametern (z. B. Auflösung, Beleuchtung, Blickwinkel) führen zu Domänenverschiebungen, die die Modellleistung beeinträchtigen. In diesem Artikel wird ein neuartiges Verfahren vorgestellt, das generative KI nutzt, um hochwertige Luftbilder und deren Labels zu synthetisieren, um die Trainingsqualität von Detektoren durch Datenvervollständigung zu verbessern. Unser zentrales Beitrag besteht in der Entwicklung eines mehrstufigen, multimodalen Wissensübertragungsrahmens, der feinabgestimmte latente Diffusionsmodelle (Latent Diffusion Models, LDMs) nutzt, um die Verteilungslücke zwischen Quell- und Zielumgebung zu verringern. Umfassende Experimente an verschiedenen Domänen von Luftbildern zeigen konsistente Leistungssteigerungen in AP50 gegenüber überwachtem Lernen auf Quelldaten, schwach überwachten Anpassungsverfahren, unsupervisierter Domänenanpassung und offensetzbasierten Objekterkennern um 4–23 %, 6–10 %, 7–40 % und mehr als 50 % jeweils. Zudem stellen wir zwei neu annotierte Luftbild-Datensätze aus Neuseeland und Utah vor, um zukünftige Forschung in diesem Bereich zu unterstützen. Die Projektseite ist unter folgender Adresse verfügbar: https://humansensinglab.github.io/AGenDA