HyperAIHyperAI
vor 11 Tagen

$\mathbf{C}^2$Former: Kalibriertes und ergänzendes Transformer-Modell für die Objektdetektion mit RGB-Infrarot-Daten

Maoxun Yuan, Xingxing Wei
$\mathbf{C}^2$Former: Kalibriertes und ergänzendes Transformer-Modell für die Objektdetektion mit RGB-Infrarot-Daten
Abstract

Die Objektdetektion in sichtbaren (RGB) und Infrarot (IR) Bildern hat in den letzten Jahren erhebliche Aufmerksamkeit erhalten, da sie als vielversprechende Lösung für eine zuverlässige Erkennung rund um die Uhr gilt. Durch die Nutzung von IR-Bildern können Objektdetektoren mittels kombinierter RGB-IR-Informationen in praktischen Anwendungen robuster und zuverlässiger werden. Dennoch leiden bestehende Methoden weiterhin unter Problemen der Modalitäts-Desynchronisation und ungenauer Fusion. Da Transformer über eine starke Fähigkeit zur Modellierung paarweiser Korrelationen zwischen verschiedenen Merkmalen verfügen, schlagen wir in diesem Artikel einen neuen, kalibrierten und komplementären Transformer namens $\mathrm{C}^2$Former vor, um diese beiden Herausforderungen gleichzeitig zu bewältigen. Im $\mathrm{C}^2$Former entwerfen wir ein Inter-Modalitäts-Cross-Attention (ICA)-Modul, das kalibrierte und komplementäre Merkmale durch Lernen der Cross-Attention-Beziehung zwischen RGB- und IR-Modalitäten erzeugt. Um die durch die Berechnung globaler Aufmerksamkeit im ICA verursachten Rechenkosten zu reduzieren, wird ein adaptives Merkmalsampling-Modul (AFS) eingeführt, um die Dimension von Merkmalskarten zu verringern. Da $\mathrm{C}^2$Former im Merkmalsraum arbeitet, kann er nahtlos in bestehende RGB-IR-Objektdetektoren über das Backbone-Netzwerk integriert werden. Daher werden sowohl ein einstufiger als auch ein zweistufiger Objektdetektor, die beide unser $\mathrm{C}^2$Former beinhalten, konstruiert, um dessen Wirksamkeit und Vielseitigkeit zu evaluieren. Anhand umfangreicher Experimente auf den Datensätzen DroneVehicle und KAIST RGB-IR bestätigen wir, dass unsere Methode die komplementären Informationen von RGB-IR vollständig ausnutzen und robuste Detektionsergebnisse erzielen kann. Der Quellcode ist unter https://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detection.git verfügbar.

$\mathbf{C}^2$Former: Kalibriertes und ergänzendes Transformer-Modell für die Objektdetektion mit RGB-Infrarot-Daten | Neueste Forschungsarbeiten | HyperAI