Sprechen Sie wie Sie handeln? Untersuchung der Pose-basierten Klassifikation von Fahreraktionen mit Spracherkennungsnetzwerken
Die Erkennung von Ablenkungen auf der Straße ist entscheidend, um Verkehrsunfälle zu reduzieren. Typischerweise werden videobasierte Netzwerke eingesetzt, sind jedoch aufgrund ihres hohen Rechenaufwands eingeschränkt und empfindlich gegenüber Veränderungen der Blickrichtung. In diesem Paper stellen wir einen neuartigen Ansatz zur Klassifikation von Fahrerhandlungen auf Basis von Körperhaltungen vor, der Spracherkennungsnetzwerke nutzt und gegenüber videobasierten Ansätzen leichter sowie viewpoint-invarianter ist. Wir nutzen die Ähnlichkeit der Informationscodierung zwischen Audio- und Pose-Daten, indem wir Körperhaltungen als zeitliche Schlüsselpunkte darstellen. Unsere Architektur basiert auf Squeezeformer, einem effizienten, auf Aufmerksamkeit basierenden Spracherkennungsnetzwerk. Wir führen eine Reihe von Daten-Augmentierungstechniken ein, um die Generalisierungsfähigkeit zu verbessern. Experimente auf dem Drive&Act-Datensatz zeigen eine überlegene Leistung im Vergleich zu aktuellen State-of-the-Art-Methoden. Zudem untersuchen wir die Integration von Objektinformationen sowie die Auswirkungen von Blickwinkeländerungen. Unsere Ergebnisse unterstreichen die Effektivität und Robustheit von Spracherkennungsnetzwerken bei der Klassifikation von Handlungen auf Basis von Körperhaltungen.