Command Palette
Search for a command to run...
C2Former: Kalibriertes und ergänzendes Transformer-Modell für die Objektdetektion mit RGB-Infrarot-Daten
C2Former: Kalibriertes und ergänzendes Transformer-Modell für die Objektdetektion mit RGB-Infrarot-Daten
Maoxun Yuan Xingxing Wei
Zusammenfassung
Die Objektdetektion in sichtbaren (RGB) und Infrarot (IR) Bildern hat in den letzten Jahren erhebliche Aufmerksamkeit erhalten, da sie als vielversprechende Lösung für eine zuverlässige Erkennung rund um die Uhr gilt. Durch die Nutzung von IR-Bildern können Objektdetektoren mittels kombinierter RGB-IR-Informationen in praktischen Anwendungen robuster und zuverlässiger werden. Dennoch leiden bestehende Methoden weiterhin unter Problemen der Modalitäts-Desynchronisation und ungenauer Fusion. Da Transformer über eine starke Fähigkeit zur Modellierung paarweiser Korrelationen zwischen verschiedenen Merkmalen verfügen, schlagen wir in diesem Artikel einen neuen, kalibrierten und komplementären Transformer namens C2Former vor, um diese beiden Herausforderungen gleichzeitig zu bewältigen. Im C2Former entwerfen wir ein Inter-Modalitäts-Cross-Attention (ICA)-Modul, das kalibrierte und komplementäre Merkmale durch Lernen der Cross-Attention-Beziehung zwischen RGB- und IR-Modalitäten erzeugt. Um die durch die Berechnung globaler Aufmerksamkeit im ICA verursachten Rechenkosten zu reduzieren, wird ein adaptives Merkmalsampling-Modul (AFS) eingeführt, um die Dimension von Merkmalskarten zu verringern. Da C2Former im Merkmalsraum arbeitet, kann er nahtlos in bestehende RGB-IR-Objektdetektoren über das Backbone-Netzwerk integriert werden. Daher werden sowohl ein einstufiger als auch ein zweistufiger Objektdetektor, die beide unser C2Former beinhalten, konstruiert, um dessen Wirksamkeit und Vielseitigkeit zu evaluieren. Anhand umfangreicher Experimente auf den Datensätzen DroneVehicle und KAIST RGB-IR bestätigen wir, dass unsere Methode die komplementären Informationen von RGB-IR vollständig ausnutzen und robuste Detektionsergebnisse erzielen kann. Der Quellcode ist unter https://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detection.git verfügbar.