HyperAIHyperAI

Command Palette

Search for a command to run...

Part-aware vereinte Darstellung von Sprache und Skelett für zero-shot Aktionserkennung

Anqi Zhu Qiuhong Ke* Mingming Gong James Bailey

Zusammenfassung

Während bemerkenswerte Fortschritte bei der überwachten Skelettbasierten Aktionserkennung gemacht wurden, bleibt die Herausforderung der Zero-Shot-Erkennung relativ unerforscht. In dieser Arbeit argumentieren wir, dass sich allein auf die Anpassung von Etikettsemantik und globalen Skelettmerkmalen zu stützen nicht ausreicht, um lokal konsistentes visuelles Wissen von bekannten zu unbekannten Klassen effektiv zu transferieren. Um diese Einschränkung zu beheben, stellen wir die Part-aware Unified Representation between Language and Skeleton (PURLS) vor, um die visuelle-semantische Anpassung sowohl auf lokaler als auch auf globaler Ebene zu erforschen. PURLS führt ein neues Prompting-Modul und ein neuartiges Partitionierungsmodul ein, um übereinstimmende textuelle und visuelle Darstellungen auf verschiedenen Ebenen zu generieren. Das erstere nutzt ein vortrainiertes GPT-3-Modell, um verfeinerte Beschreibungen der globalen und lokalen (körperpartbasierten und zeitintervallbasierten) Bewegungen aus den ursprünglichen Aktionsetiketten abzuleiten. Das letztere verwendet eine adaptive Abtaststrategie, um visuelle Merkmale aller körperlichen Gelenkbewegungen zusammenzufassen, die semantisch relevant für eine gegebene Beschreibung sind. Unser Ansatz wird anhand verschiedener Skelett-/Sprach-Backbones und dreier groß angelegter Datensätze evaluiert: NTU-RGB+D 60, NTU-RGB+D 120 und einem neu zusammengestellten Datensatz Kinetics-Skeleton 200. Die Ergebnisse unterstreichen die Universalität und überlegene Leistungsfähigkeit von PURLS, indem sie frühere skelettbasierte Lösungen sowie Standard-Baselines aus anderen Bereichen übertreffen. Der Quellcode ist unter https://github.com/azzh1/PURLS verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp