HyperAIHyperAI

Command Palette

Search for a command to run...

Ereignisbasierte Video-Rekonstruktion mithilfe von Transformer

Zhiwei Xiong Yueyi Zhang Wenming Weng

Zusammenfassung

Ereigniskameras, die Ereignisse durch die Detektion von raumzeitlichen Helligkeitsänderungen ausgeben, bringen ein neues Paradigma für Bildsensoren mit hoher Dynamikbreite und geringer Latenz hervor. Frühere Arbeiten haben beeindruckende Leistungen bei der ereignisbasierten Video-Rekonstruktion erzielt, indem sie konvolutionale neuronale Netzwerke (CNNs) einsetzten. Allerdings ist die inhärente Lokalität konvolutionaler Operationen nicht in der Lage, langreichweitige Abhängigkeiten zu modellieren, was für viele visuelle Aufgaben von entscheidender Bedeutung ist. In diesem Paper stellen wir ein hybrides CNN-Transformer-Netzwerk für die ereignisbasierte Video-Rekonstruktion (ET-Net) vor, das sowohl die präzise lokale Information aus CNNs als auch die globalen Kontexte aus Transformer nutzt. Darüber hinaus schlagen wir eine Token-Pyramiden-Aggregation-Strategie vor, um eine mehrskalige Token-Integration zu ermöglichen und semantische Konzepte im Token-Raum, sowohl interne als auch sich überlappende, zu verknüpfen. Experimentelle Ergebnisse zeigen, dass unsere vorgeschlagene Methode gegenüber bestehenden State-of-the-Art-Methoden auf mehreren realen ereignisbasierten Datensätzen eine überlegene Leistung erzielt. Der Quellcode ist unter https://github.com/WarranWeng/ET-Net verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ereignisbasierte Video-Rekonstruktion mithilfe von Transformer | Paper | HyperAI