HyperAIHyperAI

Command Palette

Search for a command to run...

C2\mathbf{C}^2C2Former: Kalibriertes und ergänzendes Transformer-Modell für die Objektdetektion mit RGB-Infrarot-Daten

Maoxun Yuan Xingxing Wei

Zusammenfassung

Die Objektdetektion in sichtbaren (RGB) und Infrarot (IR) Bildern hat in den letzten Jahren erhebliche Aufmerksamkeit erhalten, da sie als vielversprechende Lösung für eine zuverlässige Erkennung rund um die Uhr gilt. Durch die Nutzung von IR-Bildern können Objektdetektoren mittels kombinierter RGB-IR-Informationen in praktischen Anwendungen robuster und zuverlässiger werden. Dennoch leiden bestehende Methoden weiterhin unter Problemen der Modalitäts-Desynchronisation und ungenauer Fusion. Da Transformer über eine starke Fähigkeit zur Modellierung paarweiser Korrelationen zwischen verschiedenen Merkmalen verfügen, schlagen wir in diesem Artikel einen neuen, kalibrierten und komplementären Transformer namens C2\mathrm{C}^2C2Former vor, um diese beiden Herausforderungen gleichzeitig zu bewältigen. Im C2\mathrm{C}^2C2Former entwerfen wir ein Inter-Modalitäts-Cross-Attention (ICA)-Modul, das kalibrierte und komplementäre Merkmale durch Lernen der Cross-Attention-Beziehung zwischen RGB- und IR-Modalitäten erzeugt. Um die durch die Berechnung globaler Aufmerksamkeit im ICA verursachten Rechenkosten zu reduzieren, wird ein adaptives Merkmalsampling-Modul (AFS) eingeführt, um die Dimension von Merkmalskarten zu verringern. Da C2\mathrm{C}^2C2Former im Merkmalsraum arbeitet, kann er nahtlos in bestehende RGB-IR-Objektdetektoren über das Backbone-Netzwerk integriert werden. Daher werden sowohl ein einstufiger als auch ein zweistufiger Objektdetektor, die beide unser C2\mathrm{C}^2C2Former beinhalten, konstruiert, um dessen Wirksamkeit und Vielseitigkeit zu evaluieren. Anhand umfangreicher Experimente auf den Datensätzen DroneVehicle und KAIST RGB-IR bestätigen wir, dass unsere Methode die komplementären Informationen von RGB-IR vollständig ausnutzen und robuste Detektionsergebnisse erzielen kann. Der Quellcode ist unter https://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detection.git verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp