Raum-Zeit-Graph-Attention-Netzwerk für aktionsbasierte Anerkennung auf Basis von Skelettdaten

Bei aktuellen Methoden zur aktionsbasierten Erkennung auf Basis von Skeletten wird typischerweise hauptsächlich auf die Erfassung langfristiger zeitlicher Abhängigkeiten geachtet, da Skelettsequenzen in der Regel lang sind (größer als 128 Frames), was eine herausfordernde Aufgabe für frühere Ansätze darstellt. Unter solchen Bedingungen werden kurzfristige Abhängigkeiten formal kaum berücksichtigt, obwohl sie entscheidend für die Klassifikation ähnlicher Aktionen sind. Die meisten aktuellen Ansätze setzen sich aus abwechselnden räumlichen-only-Modulen und zeitlichen-only-Modulen zusammen, wodurch der direkte Informationsfluss zwischen Gelenken in benachbarten Frames behindert wird und somit eine unzureichende Erfassung kurzfristiger Bewegungsmuster sowie eine geringere Fähigkeit zur Unterscheidung ähnlicher Aktionspaare resultiert. Um diese Beschränkung zu überwinden, schlagen wir einen allgemeinen Rahmen vor, der als STGAT bezeichnet wird, um einen Informationsfluss über Raum und Zeit hinweg zu modellieren. STGAT verleiht den räumlichen-only-Modulen die Fähigkeit zur räumlich-zeitlichen Modellierung zur regionalen Wahrnehmung. Obwohl STGAT theoretisch effektiv für die räumlich-zeitliche Modellierung ist, schlagen wir drei einfache Module vor, um die lokale räumlich-zeitliche Merkmalsredundanz zu verringern und das volle Potenzial von STGAT zu entfalten: (1) Verengung des Bereichs der Selbst-Attention-Mechanismen, (2) dynamische Gewichtung der Gelenke entlang der zeitlichen Dimension und (3) Trennung subtiler Bewegungsmerkmale von statischen Merkmalen. Als robuster Merkmalsextrahierer generalisiert STGAT bei der Klassifikation ähnlicher Aktionen besser als frühere Methoden, was sowohl qualitativ als auch quantitativ belegt wird. STGAT erreicht state-of-the-art-Leistungen auf drei großen Datensätzen: NTU RGB+D 60, NTU RGB+D 120 und Kinetics Skeleton 400. Der Quellcode wird veröffentlicht.