Recurrent Vision Transformers für die Objekterkennung mit Ereigniskameras

Wir stellen rekurrente Vision-Transformer (RVTs) vor, einen neuartigen Backbone für die Objekterkennung mit Ereigniskameras. Ereigniskameras liefern visuelle Informationen mit sub-millisekundiger Latenz, einem hohen Dynamikbereich und hoher Robustheit gegenüber Bewegungsunschärfe. Diese einzigartigen Eigenschaften bieten großes Potenzial für die latenzarme Objekterkennung und -verfolgung in zeitkritischen Szenarien. Vorangegangene Arbeiten im Bereich der ereignisbasierten Vision erreichten herausragende Erkennungsergebnisse, allerdings zu Lasten erheblicher Inferenzzeiten, die typischerweise über 40 Millisekunden lagen. Durch eine Neubewertung des Hoch-Level-Designs rekurrenter Vision-Backbones gelingt es uns, die Inferenzzeit um den Faktor 6 zu reduzieren, ohne die Leistung signifikant zu beeinträchtigen. Dazu untersuchen wir ein mehrstufiges Design, das in jeder Stufe drei zentrale Konzepte nutzt: Erstens einen konvolutionellen Vorwissen, der als bedingte Positionseingabe betrachtet werden kann; zweitens lokale und dilatierte globale Selbst-Attention zur räumlichen Merkmalsinteraktion; drittens rekurrente zeitliche Merkmalsaggregation, um die Latenz zu minimieren, während zeitliche Informationen erhalten bleiben. RVTs können von Grund auf trainiert werden und erreichen dabei Spitzenleistung bei der ereignisbasierten Objekterkennung – mit einem mAP von 47,2 % auf dem Gen1-Automotive-Datensatz. Gleichzeitig zeichnen sich RVTs durch schnelle Inferenz (<12 ms auf einer T4-GPU) und vorteilhafte Parameter-Effizienz (fünfmal weniger Parameter als vorherige Ansätze) aus. Unsere Studie liefert neue Erkenntnisse über effektive Designentscheidungen, die auch für Forschung jenseits der ereignisbasierten Vision fruchtbar sein können.