HyperAIHyperAI
vor 2 Monaten

Fein granulare Aktionserkennung mit RGB- und Pose-Informationen unter Verwendung von Two-Stream-Faltungsnetzwerken

Hacker, Leonard ; Bartels, Finn ; Martin, Pierre-Etienne
Fein granulare Aktionserkennung mit RGB- und Pose-Informationen unter Verwendung von Two-Stream-Faltungsnetzwerken
Abstract

Als Teilnehmer der MediaEval 2022 Sport-Aufgabe schlagen wir einen Ansatz mit einem zweistromigen Netzwerk für die Klassifizierung und Detektion von Tischtennis-Schlägen vor. Jeder Strom besteht aus einer Reihe von 3D-Faltungsneuronalen Netzen (Convolutional Neural Networks, CNN) mit Aufmerksamkeitsmechanismen. Jeder Strom verarbeitet unterschiedliche 4D-Eingaben. Unsere Methode nutzt rohe RGB-Daten sowie Pose-Informationen, die mit dem MMPose-Toolbox berechnet wurden. Die Pose-Informationen werden als Bild behandelt, indem die Pose entweder auf einem schwarzen Hintergrund oder auf dem ursprünglichen RGB-Bildrahmen angelegt wird, aus dem sie berechnet wurde. Die beste Leistung wird erzielt, indem rohe RGB-Daten einem Strom zugeführt werden, Pose + RGB (PRGB)-Informationen dem anderen Strom und eine späte Fusion der Merkmale durchgeführt wird. Die Ansätze wurden anhand der zur Verfügung gestellten TTStroke-21-Datensätze evaluiert. Wir können eine Verbesserung in der Schlagklassifizierung melden, wobei eine Genauigkeit von 87,3 % erreicht wurde. Die Detektion übertrifft zwar nicht das Baseline-Modell, erreicht jedoch einen IoU von 0,349 und ein mAP von 0,110.

Fein granulare Aktionserkennung mit RGB- und Pose-Informationen unter Verwendung von Two-Stream-Faltungsnetzwerken | Neueste Forschungsarbeiten | HyperAI