Schwach fehlerfreie adaptive Merkmalsausrichtung für die multimodale Objekterkennung basierend auf UAVs

Die Fusion sichtbarer und infraroter Bilder (RGB-IR) hat großes Potenzial für die Objekterkennung mittels unbemannter Luftfahrzeuge (UAVs) gezeigt. Allerdings beschränkt das Problem der schwachen Missalignment zwischen multimodalen Bilddatenpaaren die Leistungsfähigkeit bei der Objekterkennung. Die meisten bestehenden Methoden ignorieren oft die Modaldifferenz und betonen eine strenge Ausrichtung, was eine obere Schranke für die Ausrichtungsqualität darstellt und die Implementierungskosten erhöht. Um diese Herausforderungen zu bewältigen, stellen wir eine neue Methode namens Offset-gesteuerte adaptive Merkmalsausrichtung (OAFA) vor, die die relativen Positionen zwischen multimodalen Merkmalen adaptiv anpassen kann. Angesichts des Einflusses der Modaldifferenz auf die räumliche Kreuzmodus-Übereinstimmung wird ein Modul zur Modellierung räumlicher Offset zwischen Modality (CSOM) entworfen, um einen gemeinsamen Unter Raum zu schaffen, in dem präzise Merkmals-Offset-Werte geschätzt werden können. Anschließend wird ein Offset-gesteuertes deformerbares Ausrichtungs- und Fusionsmodul (ODAF) eingesetzt, um implizit optimale Fusionspositionen für die Objekterkennungsaufgabe zu erfassen, anstatt eine strenge Ausrichtung durchzuführen. Umfassende Experimente zeigen, dass unsere Methode nicht nur die bisher beste Leistung bei der Objekterkennung mittels UAVs erzielt, sondern auch eine starke Robustheit gegenüber dem Problem der schwachen Missalignment aufweist.