HyperAIHyperAI

Command Palette

Search for a command to run...

Recurrent Vision Transformers für die Objekterkennung mit Ereigniskameras

Mathias Gehrig Davide Scaramuzza

Zusammenfassung

Wir stellen rekurrente Vision-Transformer (RVTs) vor, einen neuartigen Backbone für die Objekterkennung mit Ereigniskameras. Ereigniskameras liefern visuelle Informationen mit sub-millisekundiger Latenz, einem hohen Dynamikbereich und hoher Robustheit gegenüber Bewegungsunschärfe. Diese einzigartigen Eigenschaften bieten großes Potenzial für die latenzarme Objekterkennung und -verfolgung in zeitkritischen Szenarien. Vorangegangene Arbeiten im Bereich der ereignisbasierten Vision erreichten herausragende Erkennungsergebnisse, allerdings zu Lasten erheblicher Inferenzzeiten, die typischerweise über 40 Millisekunden lagen. Durch eine Neubewertung des Hoch-Level-Designs rekurrenter Vision-Backbones gelingt es uns, die Inferenzzeit um den Faktor 6 zu reduzieren, ohne die Leistung signifikant zu beeinträchtigen. Dazu untersuchen wir ein mehrstufiges Design, das in jeder Stufe drei zentrale Konzepte nutzt: Erstens einen konvolutionellen Vorwissen, der als bedingte Positionseingabe betrachtet werden kann; zweitens lokale und dilatierte globale Selbst-Attention zur räumlichen Merkmalsinteraktion; drittens rekurrente zeitliche Merkmalsaggregation, um die Latenz zu minimieren, während zeitliche Informationen erhalten bleiben. RVTs können von Grund auf trainiert werden und erreichen dabei Spitzenleistung bei der ereignisbasierten Objekterkennung – mit einem mAP von 47,2 % auf dem Gen1-Automotive-Datensatz. Gleichzeitig zeichnen sich RVTs durch schnelle Inferenz (<12 ms auf einer T4-GPU) und vorteilhafte Parameter-Effizienz (fünfmal weniger Parameter als vorherige Ansätze) aus. Unsere Studie liefert neue Erkenntnisse über effektive Designentscheidungen, die auch für Forschung jenseits der ereignisbasierten Vision fruchtbar sein können.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Recurrent Vision Transformers für die Objekterkennung mit Ereigniskameras | Paper | HyperAI