Schwach ausgerichtetes kreuzmodales Lernen für die Multispektral-Pedestrienerkennung

Die multispектrale Fußgängererkennung hat unter schlechten Beleuchtungsbedingungen erhebliche Vorteile gezeigt, da das thermische Modul ergänzende Informationen für das Farbbild bereitstellt. Allerdings leidet echte multispектrale Daten unter dem Problem der Positionsschiebung, d.h. die Farb-Thermopaarbilder sind nicht streng ausgerichtet, sodass ein Objekt in verschiedenen Modalitäten unterschiedliche Positionen hat. Bei tiefen Lernmethoden macht dieses Problem es schwierig, die Merkmalskarten beider Modalitäten zu fusionieren und verwirrt die CNN-Ausbildung. In dieser Arbeit schlagen wir ein neues Aligned Region CNN (AR-CNN) vor, um schwach ausgerichtete multispектrale Daten auf eine end-to-end-Basis zu verarbeiten. Zunächst entwickeln wir ein Region Feature Alignment (RFA)-Modul, um die Positionsschiebung zu erfassen und die Regionmerkmale der beiden Modalitäten anpassungsfähig auszurichten. Anschließend stellen wir eine neue Multimodalitätsfusionmethode vor, die Merkmalsneubewertung durchführt, um verlässlichere Merkmale auszuwählen und unnötige zu unterdrücken. Darüber hinaus schlagen wir eine neue RoI-Jitter-Strategie vor, um die Robustheit gegenüber unerwarteten Verschiebungsmustern verschiedener Geräte und Systemeinstellungen zu verbessern. Schließlich hängt unsere Methode von einer neuen Art der Beschriftung ab: Begrenzungsrahmen, die jeder Modalität entsprechen. Wir haben daher den KAIST-Datensatz manuell neu beschriftet, indem wir Begrenzungsrahmen in beiden Modalitäten platziert und ihre Beziehungen aufgebaut haben, was einen neuen KAIST-Paired Annotation-Datensatz liefert. Umfangreiche experimentelle Validierungen an bestehenden Datensätzen wurden durchgeführt, wodurch die Effektivität und Robustheit des vorgeschlagenen Verfahrens nachgewiesen wurde. Der Code und die Daten sind unter https://github.com/luzhang16/AR-CNN verfügbar.请注意,这里“multispectral”被翻译为“multispektrale”,以符合德语中的拼写规则。此外,“RoI”(Region of Interest)在德语中通常保留英文缩写。其他术语如“Region Feature Alignment (RFA)”和“Aligned Region CNN (AR-CNN)”也保留了英文缩写,因为这些是特定的技术名词。