Objekterkennung mit hierarchischer Merkmalsverfeinerungsnetzwerk zur Berücksichtigung von Ereignissen und Frames

In der rahmenbasierten Vision leidet die Objektdetektion unter anspruchsvollen Bedingungen erheblich unter Leistungseinbußen, da herkömmliche Kameras über eine begrenzte Sensorkapazität verfügen. Ereigniskameras generieren spärliche und asynchrone Ereignisse und bieten somit ein potenzielles Lösungsansatz für diese Probleme. Die effektive Fusion zweier heterogener Modalitäten bleibt jedoch weiterhin eine offene Herausforderung. In dieser Arbeit präsentieren wir ein neuartiges hierarchisches Merkmalsverfeinerungsnetzwerk für die Ereignis-Rahmen-Fusion. Der zentrale Ansatz basiert auf dem Entwurf des grob-zu-fein-Fusionsmoduls, das als cross-modality adaptive feature refinement (CAFR)-Modul bezeichnet wird. In der ersten Phase ermöglicht der bidirektionale, modality-übergreifende Interaktionsabschnitt (BCI) die Informationsüberbrückung zwischen zwei unterschiedlichen Quellen. Anschließend werden die Merkmale durch die Ausrichtung des Kanal-Mittels und der Varianz im zweifach adaptiven Merkmalsverfeinerungsabschnitt (TAFR) weiter verfeinert. Wir haben umfangreiche Experimente auf zwei Benchmarks durchgeführt: dem niedrigauflösenden PKU-DDD17-Car-Datensatz und dem hochauflösenden DSEC-Datensatz. Die experimentellen Ergebnisse zeigen, dass unsere Methode den Stand der Technik auf dem DSEC-Datensatz um einen beeindruckenden Betrag von $\textbf{8.0}\%$ übertrifft. Zudem demonstriert unsere Methode eine deutlich bessere Robustheit (\textbf{69.5}\% gegenüber \textbf{38.7}\%), wenn 15 verschiedene Verzerrungstypen auf die Rahmendaten angewendet werden. Der Quellcode ist über den folgenden Link verfügbar: (https://github.com/HuCaoFighting/FRN).