Augmentierte Skelettbasierte kontrastive Aktionslernen mit Momentum-LSTM für unüberwachte Aktionserkennung

Die Aktionserkennung mittels 3D-Skelettdaten ist in den letzten Jahren ein aufstrebendes und wichtiges Thema geworden. Die meisten existierenden Methoden entweder extrahieren manuell gestaltete Deskriptoren oder lernen Aktionendarstellungen durch überwachte Lernparadigmen, die eine große Menge an etikettierten Daten erfordern. In dieser Arbeit schlagen wir zum ersten Mal ein kontrastives Aktionslernparadigma namens AS-CAL (Action Similarity Contrastive Action Learning) vor, das verschiedene Augmentierungen von nicht etikettierten Skelettdaten nutzen kann, um Aktionendarstellungen in einem unüberwachten Verfahren zu lernen. Speziell führen wir zunächst einen Kontrast der Ähnlichkeit zwischen augmentierten Instanzen (Query und Key) der Eingabe-Skelettsequenz ein, die durch mehrere neuartige Augmentierungsstrategien transformiert werden, um die inhärenten Aktionsmuster ("pattern-invariance") verschiedener Skeletttransformationen zu erlernen. Zweitens, um das Erlernen der "pattern-invariance" mit konsistenteren Aktionsdarstellungen zu fördern, schlagen wir einen Momentum-LSTM-Vorschlag vor, der als momentumbasierter gleitender Mittelwert des LSTM-basierten Query-Encoders implementiert wird, um die langfristigen Aktionsdynamiken der Key-Sequenz zu kodieren. Drittens führen wir eine Warteschlange ein, um die kodierten Keys zu speichern, was es unserem Modell ermöglicht, vorgehende Keys flexibel wiederverzuwen und ein konsistenteres Wörterbuch aufzubauen, um das kontrastive Lernen zu verbessern. Schließlich wird durch zeitliche Durchschnittsbildung der verborgenen Zustände der vom Query-Encoder gelernten Aktionen eine neue Darstellung namens Contrastive Action Encoding (CAE) vorgestellt, die effektiv menschliche Aktionen darstellen kann. Ausführliche Experimente zeigen, dass unser Ansatz die bestehenden manuell gestalteten Methoden typischerweise um 10-50% in Bezug auf Top-1-Akkuranz verbessert und vergleichbare oder sogar überlegene Leistung gegenüber zahlreichen überwachten Lernmethoden erzielen kann.