Einfache und effiziente Echtzeit-Posebasierte Aktionserkennung

Die Erkennung menschlicher Aktivitäten stellt eine zentrale Herausforderung für autonome Systeme dar, da sie direkt denselben Raum mit Menschen teilen. Diese Systeme müssen in der Lage sein, menschliche Aktivitäten in Echtzeit zu erkennen und zu bewerten. Um entsprechende datengetriebene Algorithmen zu trainieren, ist eine erhebliche Menge an annotierten Trainingsdaten erforderlich. Wir haben einen Prozess vorgestellt, um Menschen zu erkennen, ihre Haltung zu schätzen, sie zeitlich zu verfolgen und ihre Aktivitäten in Echtzeit mit Standard-Monokamerasensoren zu erkennen. Für die Aktionserkennung kodieren wir die menschliche Haltung in ein neues Datenformat namens Encoded Human Pose Image (EHPI), das dann mit Standardmethoden der Computer Vision klassifiziert werden kann. Mit diesem einfachen Verfahren erreichen wir wettbewerbsfähige Ergebnisse im Stand der Technik bei der haltungsbasierenden Aktionsdetektion und können die Echtzeitleistung garantieren. Darüber hinaus zeigen wir einen Anwendungsfall im Kontext autonomer Fahrzeuge, um zu demonstrieren, wie ein solches System mithilfe von Simulationsdaten auf die Erkennung menschlicher Aktivitäten trainiert werden kann.