Cross-Modality Fusion Transformer für die Multispektrale Objekterkennung

Multispektrale Bildpaare können kombinierte Informationen liefern, was Anwendungen zur Objekterkennung in der offenen Welt zuverlässiger und robuster macht. Um die verschiedenen Modalitäten vollständig auszunutzen, stellen wir in dieser Arbeit einen einfachen, aber effektiven Ansatz zur Kreuzmodalitäts-Feature-Fusion vor, den wir Cross-Modality Fusion Transformer (CFT) nennen. Im Gegensatz zu früheren Arbeiten, die auf CNNs basieren, lernt unser Netzwerk durch das Transformer-Schema langreichweitige Abhängigkeiten und integriert globale kontextuelle Informationen im Feature-Extraktionsstadium. Von besonderer Bedeutung ist, dass das Netzwerk durch die Nutzung der Selbst-Aufmerksamkeit des Transformers gleichzeitig Intra-Modalitäts- und Inter-Modalitäts-Fusion durchführen kann und die latenten Wechselwirkungen zwischen den RGB- und Thermaldomänen robust erfassen kann. Dies führt zu einer erheblichen Verbesserung der Leistung bei der Multispektralen Objekterkennung. Ausführliche Experimente und Abschätzungstudien auf mehreren Datensätzen zeigen, dass unser Ansatz effektiv ist und eine Stand-des-Wissens-gemäße Detektionsleistung erreicht. Unser Code und unsere Modelle sind unter https://github.com/DocF/multispectral-object-detection verfügbar.