Ereignisbasierte Video-Rekonstruktion mithilfe von Transformer

Ereigniskameras, die Ereignisse durch die Detektion von raumzeitlichen Helligkeitsänderungen ausgeben, bringen ein neues Paradigma für Bildsensoren mit hoher Dynamikbreite und geringer Latenz hervor. Frühere Arbeiten haben beeindruckende Leistungen bei der ereignisbasierten Video-Rekonstruktion erzielt, indem sie konvolutionale neuronale Netzwerke (CNNs) einsetzten. Allerdings ist die inhärente Lokalität konvolutionaler Operationen nicht in der Lage, langreichweitige Abhängigkeiten zu modellieren, was für viele visuelle Aufgaben von entscheidender Bedeutung ist. In diesem Paper stellen wir ein hybrides CNN-Transformer-Netzwerk für die ereignisbasierte Video-Rekonstruktion (ET-Net) vor, das sowohl die präzise lokale Information aus CNNs als auch die globalen Kontexte aus Transformer nutzt. Darüber hinaus schlagen wir eine Token-Pyramiden-Aggregation-Strategie vor, um eine mehrskalige Token-Integration zu ermöglichen und semantische Konzepte im Token-Raum, sowohl interne als auch sich überlappende, zu verknüpfen. Experimentelle Ergebnisse zeigen, dass unsere vorgeschlagene Methode gegenüber bestehenden State-of-the-Art-Methoden auf mehreren realen ereignisbasierten Datensätzen eine überlegene Leistung erzielt. Der Quellcode ist unter https://github.com/WarranWeng/ET-Net verfügbar.