SwinSF: Bildrekonstruktion aus räumlich-zeitlichen Spike-Strömen

Die Spike-Kamera, mit ihrer hohen zeitlichen Auflösung, geringer Latenz und hohem Dynamikbereich, adressiert Herausforderungen der Hochgeschwindigkeits-Bildgebung, wie Bewegungsunschärfe. Sie erfasst Photonen an jedem Pixel unabhängig voneinander und erzeugt binäre Spike-Ströme, die reich an zeitlicher Information sind, jedoch eine herausfordernde Rekonstruktion von Bildern erfordern. Aktuelle Algorithmen, sowohl klassische als auch auf tiefen Lernverfahren basierende, bedürfen noch einer Verbesserung hinsichtlich der Nutzung der reichen zeitlichen Details und der Wiederherstellung feiner Strukturen im rekonstruierten Bild. Um dies zu überwinden, stellen wir Swin Spikeformer (SwinSF) vor, ein neuartiges Modell zur Rekonstruktion dynamischer Szenen aus Spike-Strömen. SwinSF besteht aus drei Modulen: Spike-Feature-Extraktion, räumlich-zeitlicher Feature-Extraktion und Final-Rekonstruktionsmodul. Es kombiniert verschobene Fenster- Selbst-Attention mit einer neu vorgeschlagenen zeitlichen Spike-Attention, um eine umfassende Merkmalsextraktion zu gewährleisten, die sowohl räumliche als auch zeitliche Dynamiken erfasst, was zu einer robusteren und genauereren Rekonstruktion der Spike-Ströme führt. Zudem haben wir ein neues synthetisches Datensatz für die Spike-Bildrekonstruktion erstellt, der der Auflösung der neuesten Spike-Kamera entspricht, um dessen Relevanz und Anwendbarkeit für die aktuellsten Entwicklungen in der Spike-Kamera-Bildgebung sicherzustellen. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Netzwerk SwinSF eine neue Benchmark setzt und state-of-the-art-Leistung auf einer Reihe von Datensätzen erzielt, sowohl auf realen als auch auf synthetischen Daten unterschiedlicher Auflösungen. Unsere Quellcode-Implementierung und der vorgeschlagene Datensatz werden in Kürze verfügbar sein.