Globale kontextbewusste Aufmerksamkeits-LSTM-Netzwerke für die 3D-Aktionserkennung

Long Short-Term Memory (LSTM)-Netze haben aufgrund ihrer Fähigkeit, Dynamik und Abhängigkeiten in sequenziellen Daten zu modellieren, eine herausragende Leistung bei der 3D-Aktionserkennung gezeigt. Da nicht alle Gelenke für die Aktionsanalyse informativ sind und irrelevante Gelenke oft erhebliche Rauschkomponenten einführen, ist es notwendig, besonderes Augenmerk auf die informativen Gelenke zu legen. Ursprüngliche LSTM-Netze verfügen jedoch über keine starke Aufmerksamkeitsfähigkeit. Daher schlagen wir eine neue Klasse von LSTM-Netzen, das Global Context-Aware Attention LSTM (GCA-LSTM), für die 3D-Aktionserkennung vor, das in der Lage ist, mit Hilfe von globalen Kontextinformationen gezielt auf die informativen Gelenke in der Aktionssequenz zu fokussieren. Um eine zuverlässige Aufmerksamkeitsrepräsentation für die Aktionssequenz zu erreichen, leiten wir weiterhin einen rekurrenten Aufmerksamkeitsmechanismus für unser GCA-LSTM-Netz ein, bei dem die Aufmerksamkeitsleistung iterativ verbessert wird. Experimente zeigen, dass unser end-to-end-Netzwerk zuverlässig die informativsten Gelenke in jedem Frame der Skelettsequenz identifizieren kann. Zudem erzielt unser Netzwerk auf drei anspruchsvollen Datensätzen für die 3D-Aktionserkennung den Stand der Technik.