vor 11 Tagen

Übersetzung, Skalierung und Rotation: Kreuzmodale Ausrichtung trifft auf RGB-Infrarot-Fahrzeugdetektion

Maoxun Yuan, Yinyan Wang, Xingxing Wei

Abstract

Die Integration multispektraler Daten bei der Objektdetektion, insbesondere sichtbarer (RGB) und Infrarotbilder (IR), hat in den letzten Jahren erhebliche Aufmerksamkeit erhalten. Da RGB- und IR-Bilder ergänzende Informationen liefern, um Lichtvariationen zu bewältigen, werden Paare dieser Bilder in zahlreichen Anwendungen eingesetzt, beispielsweise bei der multispektralen Detektion von Fußgängern, der Zählung von Menschenmengen in RGB-IR-Bildern sowie der RGB-IR-Identifikation auffälliger Objekte. Im Vergleich zu natürlichen RGB-IR-Bildern leidet die Objektdetektion in luftgestützten RGB-IR-Bildern jedoch unter Problemen der schwachen multimodalen Missalignment, die sich in Positions-, Größen- und Winkelabweichungen desselben Objekts äußern. In dieser Arbeit befassen wir uns hauptsächlich mit der Herausforderung der multimodalen schwachen Missalignment in luftgestützten RGB-IR-Bildern. Konkret analysieren wir zunächst die Ursache dieses Missalignment-Problems. Anschließend schlagen wir ein Translation-Scale-Rotation Alignment (TSRA)-Modul vor, das die Problematik durch Kalibrierung der Merkmalskarten beider Modalitäten adressiert. Das Modul schätzt die Abweichung zwischen Objekten beider Modalitäten mittels eines Ausrichtungsprozesses vorher und nutzt eine Modality-Selection-(MS)-Strategie, um die Leistung der Ausrichtung zu verbessern. Schließlich wird ein zweistrombasierter, merkmalsausgerichteter Detektor (TSFADet), basierend auf dem TSRA-Modul, für die Objektdetektion in luftgestützten RGB-IR-Bildern konstruiert. Durch umfassende Experimente auf dem öffentlichen DroneVehicle-Datensatz bestätigen wir, dass unsere Methode die Auswirkungen der multimodalen Missalignment reduziert und robuste Detektionsergebnisse erzielt.