Pose ist alles, was Sie brauchen: Das Pose-only Group Activity Recognition System (POGARS)

Wir stellen einen neuartigen, auf tiefer Lernung basierenden Ansatz zur Erkennung von Gruppenaktivitäten vor, namens Pose Only Group Activity Recognition System (POGARS), der ausschließlich verfolgte Körperpose-Daten von Personen nutzt, um die ausgeführte Gruppenaktivität vorherzusagen. Im Gegensatz zu bestehenden Ansätzen zur Gruppenaktivitäts-Erkennung verwendet POGARS 1D-CNNs, um die räumlich-zeitlichen Dynamiken einzelner Personen innerhalb einer Gruppenaktivität zu lernen, und verzichtet dabei auf die Extraktion von Merkmalen aus Pixel-Daten. Das vorgeschlagene Modell setzt eine räumlich-zeitliche Aufmerksamkeitsmechanik ein, um die individuelle Bedeutung jedes einzelnen Personen zu schätzen, und nutzt zudem Multi-Task-Lernen, um gleichzeitig die Klassifikation von Gruppen- und Einzelaktionen durchzuführen. Experimentelle Ergebnisse bestätigen, dass POGARS im Vergleich zu aktuellen state-of-the-art-Methoden auf einem weit verbreiteten öffentlichen Volleyball-Datensatz hochkompetitive Ergebnisse erzielt, obwohl ausschließlich verfolgte Pose als Eingabedaten verwendet werden. Zudem zeigen unsere Experimente, dass POGARS im Vergleich zu Methoden, die RGB-Daten als Eingabe nutzen, eine bessere Verallgemeinerungsfähigkeit aufweist, wenn ausschließlich Pose als Eingabe dient.