Command Palette
Search for a command to run...
Lernen eines mehrgranularen spatio-temporalen Graphen-Netzwerks für die aktionsbasierte Skelett-Erkennung
Lernen eines mehrgranularen spatio-temporalen Graphen-Netzwerks für die aktionsbasierte Skelett-Erkennung
Tailin Chen Desen Zhou Jian Wang Shidong Wang Yu Guan Xuming He Errui Ding
Zusammenfassung
Die Aufgabe der aktionsbasierten Erkennung auf der Grundlage von Skelettdaten bleibt aufgrund der mehrfachen Granularitäten und der hohen Variabilität menschlicher Bewegungen eine zentrale Herausforderung im Bereich des menschenzentrierten Szenenverstehens. Bisherige Ansätze verwenden typischerweise eine einzige neuronale Darstellung für verschiedene Bewegungsmuster, was Schwierigkeiten bereitet, feinabgestufte Aktionsklassen zu erfassen, insbesondere bei begrenzten Trainingsdaten. Um diese Probleme anzugehen, schlagen wir ein neuartiges mehrgranulares räumlich-zeitliches Graphnetzwerk für die Aktionsklassifikation auf Basis von Skelettdaten vor, das sowohl grobe als auch feine Bewegungsmuster im Skelett gemeinsam modelliert. Dazu entwickeln wir ein dualer Kopf-Graphnetzwerk mit zwei abwechselnd angeordneten Zweigen, das es uns ermöglicht, effizient und effektiv Merkmale auf zwei räumlich-zeitlichen Auflösungen zu extrahieren. Zudem nutzt unser Netzwerk eine Cross-Head-Kommunikationsstrategie, um die Darstellungen beider Köpfe gegenseitig zu verstärken. Wir führten umfangreiche Experimente auf drei großen Datensätzen durch: NTU RGB+D 60, NTU RGB+D 120 und Kinetics-Skeleton. Unser Ansatz erreicht dabei die bisher beste Leistung auf allen Benchmarks und bestätigt somit die Wirksamkeit unserer Methode.