HyperAIHyperAI
vor 2 Monaten

Skelettbasierte Erkennung menschlicher Aktivitäten mit globalen kontextsensitiven Attention-LSTM-Netzwerken

Jun Liu; Gang Wang; Ling-Yu Duan; Kamila Abdiyeva; Alex C. Kot
Skelettbasierte Erkennung menschlicher Aktivitäten mit globalen kontextsensitiven Attention-LSTM-Netzwerken
Abstract

Die Erkennung menschlicher Aktivitäten in 3D-Skelettfolgen hat viel Forschungsinteresse geweckt. Kürzlich haben Long Short-Term Memory (LSTM)-Netze aufgrund ihrer Stärken bei der Modellierung von Abhängigkeiten und Dynamiken in sequenziellen Daten vielversprechende Ergebnisse in dieser Aufgabe gezeigt. Da nicht alle Skelettgelenke für die Aktivitätserkennung informativ sind und irrelevante Gelenke oft Rauschen hervorrufen, das die Leistung verschlechtern kann, müssen wir uns stärker auf die informativen Gelenke konzentrieren. Der ursprüngliche LSTM-Netzwerktyp verfügt jedoch nicht über eine explizite Aufmerksamkeitsfähigkeit. In diesem Artikel schlagen wir eine neue Klasse von LSTM-Netzen vor, die Global Context-Aware Attention LSTM (GCA-LSTM), für die aktionsbasierte Erkennung anhand von Skelettdaten. Dieses Netzwerk ist in der Lage, sich selektiv auf die informativen Gelenke in jedem Frame jeder Skelettfolge zu fokussieren, indem es eine globale Kontextspeicherzelle verwendet. Um die Aufmerksamkeitsfähigkeit unseres Netzwerks weiter zu verbessern, führen wir auch einen rekurrenten Aufmerksamkeitzweck ein, mit dem sich die Aufmerksamkeitsleistung des Netzwerks schrittweise erhöhen lässt. Darüber hinaus schlagen wir ein schrittweises Trainingsverfahren vor, um unser Netzwerk effektiv zu trainieren. Unser Ansatz erreicht den Stand der Technik auf fünf anspruchsvollen Benchmark-Datensätzen für aktionsbasierte Erkennung anhand von Skelettdaten.请注意,这里有一个小错误:“rekurrenten Aufmerksamkeitzweck” 应该改为 “rekurrenten Aufmerksamkeitmechanismus”。以下是修正后的版本:Die Erkennung menschlicher Aktivitäten in 3D-Skelettfolgen hat viel Forschungsinteresse geweckt. Kürzlich haben Long Short-Term Memory (LSTM)-Netze aufgrund ihrer Stärken bei der Modellierung von Abhängigkeiten und Dynamiken in sequenziellen Daten vielversprechende Ergebnisse in dieser Aufgabe gezeigt. Da nicht alle Skelettgelenke für die Aktivitätserkennung informativ sind und irrelevante Gelenke oft Rauschen hervorrufen, das die Leistung verschlechtern kann, müssen wir uns stärker auf die informativen Gelenke konzentrieren. Der ursprüngliche LSTM-Netzwerktyp verfügt jedoch nicht über eine explizite Aufmerksamkeitsfähigkeit. In diesem Artikel schlagen wir eine neue Klasse von LSTM-Netzen vor, die Global Context-Aware Attention LSTM (GCA-LSTM), für die aktionsbasierte Erkennung anhand von Skelettdaten. Dieses Netzwerk ist in der Lage, sich selektiv auf die informativen Gelenke in jedem Frame jeder Skelettfolge zu fokussieren, indem es eine globale Kontextspeicherzelle verwendet. Um die Aufmerksamkeitsfähigkeit unseres Netzwerks weiter zu verbessern, führen wir auch einen rekurrenten Aufmerksamkeitmechanismus ein, mit dem sich die Aufmerksamkeitsleistung des Netzwerks schrittweise erhöhen lässt. Darüber hinaus schlagen wir ein schrittweises Trainingsverfahren vor, um unser Netzwerk effektiv zu trainieren. Unser Ansatz erreicht den Stand der Technik auf fünf anspruchsvollen Benchmark-Datensätzen für aktionsbasierte Erkennung anhand von Skelettdaten.