Prototypischer Kontrast und umgekehrte Vorhersage: Unüberwachte Skelettbasierte Aktionserkennung

In dieser Arbeit konzentrieren wir uns auf das unüberwachte Repräsentationslernen für die Aktionserkennung basierend auf Skelettdaten. Bestehende Ansätze lernen in der Regel Aktionen durch sequentielle Vorhersage, leiden jedoch unter der Unfähigkeit, semantische Informationen vollständig zu erlernen. Um diese Einschränkung zu beheben, schlagen wir ein neues Framework vor, das Prototypischer Kontrast und Rückwärtige Vorhersage (Prototypical Contrast and Reverse Prediction, PCRP) genannt wird. Dieses Framework erstellt nicht nur eine rückwärts gerichtete sequentielle Vorhersage, um niedrigstufige Informationen (z.B. Körperhaltung in jedem Frame) und hochstufige Muster (z.B. Bewegungsfolge) zu erlernen, sondern entwickelt auch Aktionenprototypen, um die semantische Ähnlichkeit zwischen Sequenzen implizit zu kodieren. Im Allgemeinen betrachten wir Aktionenprototypen als latente Variablen und formulieren PCRP als eine Erwartung-Maximierungsaufgabe. Speziell führt PCRP iterativ (1) den E-Schritt durch, bei dem die Verteilung der Prototypen durch Clustern der Aktionenkodierung aus dem Encoder bestimmt wird, und (2) den M-Schritt durch, bei dem der Encoder durch Minimierung des vorgeschlagenen ProtoMAE-Verlusts optimiert wird. Dieser Verlust hilft gleichzeitig, die Aktionenkodierung ihrem zugewiesenen Prototyp näherzubringen und die Aufgabe der Rückwärtigen Vorhersage zu erfüllen. Ausführliche Experimente auf den Datensätzen N-UCLA, NTU 60 und NTU 120 zeigen, dass PCRP die besten unüberwachten Methoden übertrifft und sogar eine bessere Leistung als einige überwachte Methoden erzielt. Der Quellcode ist unter https://github.com/Mikexu007/PCRP verfügbar.