Actionlet-abhängiges kontrastives Lernen für unsupervisierte, auf Skeletten basierende Aktionserkennung

Das selbstüberwachte Vortrainingsparadigma hat erheblichen Erfolg bei der aktionsbasierten Erkennung anhand von Skelettdaten erzielt. Allerdings behandeln diese Methoden Bewegungs- und statische Anteile gleichwertig und verfügen über keinen adaptiven Entwurf für unterschiedliche Bereiche, was sich negativ auf die Genauigkeit der Aktionserkennung auswirkt. Um eine adaptive Modellierung sowohl der bewegten als auch der statischen Teile zu ermöglichen, schlagen wir eine Methode namens Actionlet-Dependent Contrastive Learning (ActCLR) vor. Der Begriff „Actionlet“ bezeichnet eine diskriminative Teilmenge des menschlichen Skeletts und ermöglicht eine effektive Zerlegung der Bewegungsregionen zur verbesserten Aktionsmodellierung. Genauer gesagt, extrahieren wir die Bewegungsregion der Skelettdaten auf unsupervisierte Weise, indem wir mit einem statischen Anchor ohne Bewegung kontrastieren. Diese extrahierte Bewegungsregion fungiert als Actionlet. Anschließend wird um das Actionlet herum eine bewegungsadaptive Datentransformation konzipiert. Unterschiedliche Transformationen werden auf Actionlet- und Nicht-Actionlet-Bereiche angewendet, um eine größere Vielfalt einzuführen, während gleichzeitig die jeweiligen Eigenschaften erhalten bleiben. Gleichzeitig stellen wir eine semantikbewusste Merkmalspooling-Methode vor, die es ermöglicht, Merkmalsspezifikationen zwischen bewegten und statischen Regionen differenziert zu erzeugen. Umfangreiche Experimente an den Datensätzen NTU RGB+D und PKUMMD zeigen, dass die vorgeschlagene Methode eine herausragende Leistung bei der Aktionserkennung erzielt. Zusätzliche Visualisierungen und quantitative Experimente belegen die Wirksamkeit unseres Ansatzes. Die Projektwebsite ist unter https://langlandslin.github.io/projects/ActCLR/ verfügbar.