HyperAIHyperAI
vor 11 Tagen

Modellierung des relativen visuellen Tempos für selbstüberwachtes, auf Skeletten basierendes Aktionserkennung

{Guangcan Liu, Zhengtao Yu, Hu Han, Yisheng Zhu}
Modellierung des relativen visuellen Tempos für selbstüberwachtes, auf Skeletten basierendes Aktionserkennung
Abstract

Visuelles Tempo charakterisiert die Dynamik und die zeitliche Entwicklung von Bewegungen, was hilft, Aktionen präzise zu beschreiben. In jüngsten Ansätzen wird visuelles Tempo direkt auf Skelettsequenzen vorhergesagt, was jedoch unter dem Problem unzureichender Merkmalsdarstellung leiden kann. In dieser Arbeit beobachten wir, dass relatives visuelles Tempo besser mit der menschlichen Intuition übereinstimmt und somit effektivere Supervisionsignale liefert. Ausgehend davon schlagen wir einen neuen Rahmen für kontrastives Lernen des relativen visuellen Tempos zur Darstellung von Skelettaktionen (RVTCLR) vor. Konkret entwerfen wir eine Aufgabe zum Lernen des relativen visuellen Tempos (RVTL), um Bewegungsinformationen innerhalb von Videoclips zu erforschen, sowie eine Aufgabe zur Aufrechterhaltung der Erscheinungsbildkonsistenz (AC), um gleichzeitig Erscheinungsinformationen zu erlernen, was zu repräsentativeren räumlich-zeitlichen Merkmalen führt. Darüber hinaus sind Skelettsequenzdaten viel spärlicher als RGB-Daten, wodurch das Netzwerk dazu neigt, Kurzschlüsse zu lernen und sich übermäßig an niedrigstufige Informationen wie Skelettgrößen anzupassen. Um hochwertige Semantik zu erlernen, ergänzen wir den Ansatz um einen neuen Zweig zur Verteilungskonsistenz (DC), der drei Komponenten umfasst: skelett-spezifische Datenaugmentation (SDA), ein fein granulierter Skelett-Encoder-Modul (FSEM) und eine verteilungsbewusste Vielfalt-Verlustfunktion (DD-Loss). Wir bezeichnen unseren gesamten Ansatz (RVTCLR mit DC) als RVTCLR+. Umfangreiche Experimente auf den Datensätzen NTU RGB+D 60 und NTU RGB+D 120 zeigen, dass unser RVTCLR+ Ergebnisse erzielt, die mit den besten bisherigen Methoden konkurrieren. Der Quellcode ist unter https://github.com/Zhuysheng/RVTCLR verfügbar.

Modellierung des relativen visuellen Tempos für selbstüberwachtes, auf Skeletten basierendes Aktionserkennung | Neueste Forschungsarbeiten | HyperAI