Fein granulierte Nebeninformationen gesteuerte Doppelprompts für die zero-shot Skelettbewegungserkennung

Die skelettbasierte Zero-Shot-Aktenerkennung (Zero-Shot Action Recognition) strebt danach, unbekannte menschliche Aktivitäten auf der Grundlage gelernter A-priori-Wissens der bekannten skelettbasierten Aktionen und eines semantischen Deskriptorraums zu erkennen, der sowohl für bekannte als auch für unbekannte Kategorien gemeinsam genutzt wird. Vorherige Arbeiten konzentrierten sich jedoch darauf, Brücken zwischen dem bekannten Skelettrepräsentationsraum und dem semantischen Beschreibungsraum auf grobkörniger Ebene zu schlagen, um unbekannte Aktionskategorien zu erkennen. Dabei wurde die feinkörnige Ausrichtung dieser beiden Räume vernachlässigt, was zu einem suboptimalen Leistungsverhalten bei der Unterscheidung von hochähnlichen Aktionskategorien führte. Um diese Herausforderungen anzugehen, schlagen wir eine neuartige Methode vor, die durch Seiteninformation und Doppelprompts-Lernen (Side Information and Dual-Prompts Learning) die skelettbasierte Zero-Shot-Aktenerkennung (STAR) auf feinkörniger Ebene verbessert. Insbesondere: 1) Wir zerlegen das Skelett in mehrere Teile basierend auf seiner Topologiestruktur und führen Seiteninformation ein, die sich mit Mehrteil-Beschreibungen menschlicher Bewegungen befasst, um eine feinkörnige Ausrichtung zwischen dem Skelett und dem semantischen Raum herzustellen; 2) Wir entwerfen visuelle-Attribut- und semantische-Teil-Prompts, um die Intra-Klassen-Kompaktheit im SkelettRaum und die Inter-Klassen-Trennbarkeit im semantischen Raum jeweils zu verbessern, um hochähnliche Aktionen voneinander abzugrenzen. Ausführliche Experimente zeigen, dass unsere Methode den Stand der Technik in den ZSL- und GZSL-Einstellungen auf den Datensätzen NTU RGB+D, NTU RGB+D 120 und PKU-MMD erreicht.请注意,这里的“ZSL”和“GZSL”分别指零样本学习(Zero-Shot Learning)和广义零样本学习(Generalized Zero-Shot Learning),这些术语在德语中通常保留英文缩写。同样,“NTU RGB+D”,“NTU RGB+D 120” 和 “PKU-MMD” 是数据集的名称,也通常保持不变。