HyperAIHyperAI
vor 17 Tagen

HALSIE: Hybrid-Ansatz zum Lernen der Segmentierung durch gleichzeitige Ausnutzung von Bild- und Ereignismodalitäten

Shristi Das Biswas, Adarsh Kosta, Chamika Liyanagedera, Marco Apolinario, Kaushik Roy
HALSIE: Hybrid-Ansatz zum Lernen der Segmentierung durch gleichzeitige Ausnutzung von Bild- und Ereignismodalitäten
Abstract

Ereigniskameras erfassen Änderungen der Intensität pro Pixel, um asynchrone „Ereignisströme“ zu generieren. Sie bieten großes Potenzial für die präzise und zeitnahe Erstellung semantischer Karten in Echtzeitsystemen, da sie im Vergleich zu herkömmlichen Kameras eine deutlich höhere zeitliche Auflösung und einen hohen Dynamikbereich (HDR) aufweisen. Allerdings leiden bestehende Implementierungen für ereignisbasierte Segmentierung an suboptimaler Leistung, da diese zeitlich dichten Ereignisse lediglich die variierenden Komponenten eines visuellen Signals erfassen und daher im Vergleich zu Bildern eine eingeschränkte Fähigkeit zur Kodierung dichter räumlicher Kontextinformationen besitzen. Um dieses Problem anzugehen, schlagen wir einen hybriden end-to-end Lernrahmen namens HALSIE vor, der drei zentrale Konzepte nutzt, um die Inferenzkosten im Vergleich zur vorherigen Forschung um bis zu $20\times$ zu reduzieren, ohne die Leistungsignatur signifikant zu beeinträchtigen: Erstens ein einfaches und effizientes Lernverfahren über Domänen hinweg, um komplementäre räumlich-zeitliche Embeddings sowohl aus Bildern als auch aus Ereignissen zu extrahieren. Zweitens ein speziell entworfener Dual-Encoder-Ansatz mit Zweigstrukturen aus Spiking Neural Networks (SNN) und Artificial Neural Networks (ANN), der die Latenz minimiert, während gleichzeitig die Aggregation von Merkmalen aus verschiedenen Domänen erhalten bleibt. Drittens ein Multi-Skala-Cue-Mixer, der reichhaltige Darstellungen der gefilterten Embeddings modelliert. Diese Eigenschaften ermöglichen HALSIE eine äußerst leichte Architektur, die auf den Datensätzen DDD-17, MVSEC und DSEC-Semantic state-of-the-art Segmentierungsergebnisse erzielt – mit bis zu $33\times$ höherer Parameter-Effizienz und günstigen Inferenzkosten (17,9 mJ pro Zyklus). Unsere Ablationstudie liefert zudem neue Einsichten in effektive Designentscheidungen, die für Forschungsarbeiten in anderen visuellen Aufgaben von Nutzen sein können.