Übersetzung, Skalierung und Rotation: Kreuzmodale Ausrichtung trifft auf RGB-Infrarot-Fahrzeugdetektion

Die Integration multispektraler Daten bei der Objektdetektion, insbesondere sichtbarer (RGB) und Infrarotbilder (IR), hat in den letzten Jahren erhebliche Aufmerksamkeit erhalten. Da RGB- und IR-Bilder ergänzende Informationen liefern, um Lichtvariationen zu bewältigen, werden Paare dieser Bilder in zahlreichen Anwendungen eingesetzt, beispielsweise bei der multispektralen Detektion von Fußgängern, der Zählung von Menschenmengen in RGB-IR-Bildern sowie der RGB-IR-Identifikation auffälliger Objekte. Im Vergleich zu natürlichen RGB-IR-Bildern leidet die Objektdetektion in luftgestützten RGB-IR-Bildern jedoch unter Problemen der schwachen multimodalen Missalignment, die sich in Positions-, Größen- und Winkelabweichungen desselben Objekts äußern. In dieser Arbeit befassen wir uns hauptsächlich mit der Herausforderung der multimodalen schwachen Missalignment in luftgestützten RGB-IR-Bildern. Konkret analysieren wir zunächst die Ursache dieses Missalignment-Problems. Anschließend schlagen wir ein Translation-Scale-Rotation Alignment (TSRA)-Modul vor, das die Problematik durch Kalibrierung der Merkmalskarten beider Modalitäten adressiert. Das Modul schätzt die Abweichung zwischen Objekten beider Modalitäten mittels eines Ausrichtungsprozesses vorher und nutzt eine Modality-Selection-(MS)-Strategie, um die Leistung der Ausrichtung zu verbessern. Schließlich wird ein zweistrombasierter, merkmalsausgerichteter Detektor (TSFADet), basierend auf dem TSRA-Modul, für die Objektdetektion in luftgestützten RGB-IR-Bildern konstruiert. Durch umfassende Experimente auf dem öffentlichen DroneVehicle-Datensatz bestätigen wir, dass unsere Methode die Auswirkungen der multimodalen Missalignment reduziert und robuste Detektionsergebnisse erzielt.