STAR-Net: Aktionserkennung durch räumlich-zeitliche Aktivierung Reprojektion

Während Tiefenkameras und Trägheitssensoren häufig für die Erkennung menschlicher Bewegungen eingesetzt werden, sind diese Sensormodalitäten in vielen Szenarien aufgrund von Kosten oder Umgebungsbeschränkungen unpraktikabel. Daher hat es in letzter Zeit ein großes Interesse an der Erkennung menschlicher Aktionen mit kostengünstigen, leicht verfügbaren RGB-Kameras durch tiefgreifende Faltungsneuronale Netze gegeben. Allerdings haben viele der bisher für die Aktionserkennung vorgeschlagenen tiefgreifenden Faltungsneuronalen Netze stark auf das Lernen globaler Erscheinungsmerkmale direkt aus Bilddaten gesetzt, was zu hochkomplexen Netzwerkarchitekturen führt, die rechenintensiv sind und schwierig zu trainieren. Aus Motivation, die Netzwerkkomplexität zu reduzieren und eine bessere Leistung zu erzielen, führen wir den Konzept des räumlich-zeitlichen Aktivierungsrückprojektions (STAR) ein. Genauer gesagt projizieren wir die durch Schichten zur Schätzung der menschlichen Pose generierten räumlich-zeitlichen Aktivierungen mithilfe eines Stapels 3D-Faltungen im Raum und in der Zeit zurück. Experimentelle Ergebnisse auf UTD-MHAD und J-HMDB zeigen, dass eine End-to-End-Architektur basierend auf dem vorgeschlagenen STAR-Rahmen (den wir STAR-Net nennen) in Einzelumgebungen und kleinen Anwendungen effizient ist. Auf UTD-MHAD übertrifft STAR-Net mehrere Methoden, die reichere Datenmodalitäten wie Tiefendaten und Trägheitssensoren verwenden.