Tiefes fortschreitendes Verstärkungslernen für aktionsbasierte Erkennung auf der Grundlage von Skeletten

In diesem Artikel stellen wir eine tiefe progressive Verstärkungslernmethode (Deep Progressive Reinforcement Learning, DPRL) für die Aktionserkennung in gelenkbasierten Videos vor, die darauf abzielt, die informativsten Frames einer Sequenz zu extrahieren und unsichere Frames zu verwerfen. Da für jedes Video eine Vielzahl möglicher Auswahlstrategien für repräsentative Frames existiert, modellieren wir den Frame-Auswahlprozess als einen fortgeschrittenen Prozess mittels tiefem Verstärkungslernen. Dabei passen wir die ausgewählten Frames schrittweise an, wobei zwei entscheidende Faktoren berücksichtigt werden: (1) die Qualität der ausgewählten Frames und (2) die Beziehung zwischen den ausgewählten Frames und dem Gesamtvideo. Darüber hinaus berücksichtigen wir, dass die Topologie des menschlichen Körpers inhärent eine graphbasierte Struktur aufweist, bei der die Knoten die Gelenke und die Kanten die starren Knochen repräsentieren. Um die Abhängigkeiten zwischen den Gelenken für die Aktionserkennung zu erfassen, setzen wir eine graphbasierte Faltungsneuronale Netzwerk (Graph-based Convolutional Neural Network) ein. Unser Ansatz erzielt sehr wettbewerbsfähige Ergebnisse auf drei weit verbreiteten Benchmark-Datensätzen.