vor 2 Monaten

Part-aware vereinte Darstellung von Sprache und Skelett für zero-shot Aktionserkennung

Anqi Zhu; Qiuhong Ke; Mingming Gong; James Bailey

Abstract

Während bemerkenswerte Fortschritte bei der überwachten Skelettbasierten Aktionserkennung gemacht wurden, bleibt die Herausforderung der Zero-Shot-Erkennung relativ unerforscht. In dieser Arbeit argumentieren wir, dass sich allein auf die Anpassung von Etikettsemantik und globalen Skelettmerkmalen zu stützen nicht ausreicht, um lokal konsistentes visuelles Wissen von bekannten zu unbekannten Klassen effektiv zu transferieren. Um diese Einschränkung zu beheben, stellen wir die Part-aware Unified Representation between Language and Skeleton (PURLS) vor, um die visuelle-semantische Anpassung sowohl auf lokaler als auch auf globaler Ebene zu erforschen. PURLS führt ein neues Prompting-Modul und ein neuartiges Partitionierungsmodul ein, um übereinstimmende textuelle und visuelle Darstellungen auf verschiedenen Ebenen zu generieren. Das erstere nutzt ein vortrainiertes GPT-3-Modell, um verfeinerte Beschreibungen der globalen und lokalen (körperpartbasierten und zeitintervallbasierten) Bewegungen aus den ursprünglichen Aktionsetiketten abzuleiten. Das letztere verwendet eine adaptive Abtaststrategie, um visuelle Merkmale aller körperlichen Gelenkbewegungen zusammenzufassen, die semantisch relevant für eine gegebene Beschreibung sind. Unser Ansatz wird anhand verschiedener Skelett-/Sprach-Backbones und dreier groß angelegter Datensätze evaluiert: NTU-RGB+D 60, NTU-RGB+D 120 und einem neu zusammengestellten Datensatz Kinetics-Skeleton 200. Die Ergebnisse unterstreichen die Universalität und überlegene Leistungsfähigkeit von PURLS, indem sie frühere skelettbasierte Lösungen sowie Standard-Baselines aus anderen Bereichen übertreffen. Der Quellcode ist unter https://github.com/azzh1/PURLS verfügbar.