Ein räumlich-zeitliches Multilayer Perceptron für die Gestenerkennung

Die Gestenerkennung ist entscheidend für die Interaktion autonomer Fahrzeuge mit Menschen. Während aktuelle Ansätze darauf abzielen, mehrere Modalitäten wie Bildmerkmale, Schlüsselpunkte und Knochenvektoren zu kombinieren, präsentieren wir eine neuronale Netzarchitektur, die bereits mit Eingabedaten des Körpergerüstes state-of-the-art Ergebnisse erzielt. Wir schlagen den spatio-temporalen Multilayer Perceptron für die Gestenerkennung im Kontext autonomer Fahrzeuge vor. Gegeben 3D-Körperpose über die Zeit definieren wir zeitliche und räumliche Mischoperationen, um Merkmale in beiden Domänen zu extrahieren. Zudem werden die Gewichte jedes Zeitschritts mittels Squeeze-and-Excitation-Schichten neu bewertet, um deren Bedeutung zu berücksichtigen. Eine umfassende Evaluierung an den Datensätzen TCG und Drive&Act zeigt die vielversprechende Leistungsfähigkeit unseres Ansatzes. Darüber hinaus setzen wir unser Modell in unserem autonomen Fahrzeug ein, um dessen Echtzeitfähigkeit und stabile Ausführung zu demonstrieren.