Generative Action Description Prompts für skeletonbasierte Aktionserkennung

Die Aktionserkennung basierend auf Skelettdaten hat in letzter Zeit erhebliche Aufmerksamkeit erhalten. Derzeitige Ansätze zur Aktionserkennung auf Basis von Skelettdaten werden typischerweise als One-Hot-Klassifikationsaufgaben formuliert und nutzen die semantischen Beziehungen zwischen Aktionen nicht vollständig aus. Beispielsweise unterscheiden sich die Aktionen „Siegesthron“ und „Daumen hoch“ – beide Handgesten – hauptsächlich durch die Bewegung der Hände. Diese Information ist bei der kategorischen One-Hot-Codierung der Aktionsklassen nicht enthalten, kann jedoch aus der textuellen Beschreibung der Aktionen erschlossen werden. Daher könnte die Verwendung von Aktionsbeschreibungen im Trainingsprozess die Darstellungslernung potenziell verbessern. In dieser Arbeit stellen wir einen Ansatz namens Generative Action-description Prompts (GAP) für die Aktionserkennung basierend auf Skelettdaten vor. Konkret nutzen wir ein vortrainiertes großskaliges Sprachmodell als Wissensmotor, um automatisch Textbeschreibungen für die Bewegungen einzelner Körperteile während Aktionen zu generieren. Außerdem schlagen wir ein multimodales Trainingsverfahren vor, bei dem der Textencoder zur Generierung von Merkmalsvektoren für verschiedene Körperteile herangezogen wird und gleichzeitig zur Supervision des Skelettencoders für die Lernung von Aktionsdarstellungen dient. Experimente zeigen, dass unsere vorgeschlagene GAP-Methode gegenüber verschiedenen Baseline-Modellen erhebliche Verbesserungen erzielt, ohne zusätzlichen Rechenaufwand bei der Inferenz zu verursachen. GAP erreicht neue SOTA-Ergebnisse auf etablierten Benchmarks für Aktionserkennung basierend auf Skelettdaten, darunter NTU RGB+D, NTU RGB+D 120 und NW-UCLA. Der Quellcode ist unter https://github.com/MartinXM/GAP verfügbar.