Spatio-temporale Kovarianzdeskriptoren für die Erkennung von Aktionen und Gesten

Wir schlagen eine neue Methode zur Aktionserkennung und Gestenerkennung vor, die auf räumlich-zeitlichen Kovarianzdeskriptoren und einem gewichteten riemannschen Ansatz zur lokalen Erhaltungsprojektion basiert, der den durch die Deskriptoren gebildeten gekrümmten Raum berücksichtigt. Die gewichtete Projektion wird anschließend während des Boosting genutzt, um einen endgültigen Mehrklassen-Klassifikationsalgorithmus zu erstellen, der die nützlichsten räumlich-zeitlichen Regionen einsetzt. Darüber hinaus zeigen wir, wie die Deskriptoren durch die Verwendung von Integralvideo-Darstellungen schnell berechnet werden können. Experimente mit den Datensätzen UCF Sport, CK+ Gesichtsausdruck und Cambridge Handgeste deuten darauf hin, dass die vorgeschlagene Methode im Vergleich zu mehreren aktuellen state-of-the-art-Techniken überlegene Leistung zeigt. Die vorgeschlagene Methode ist robust und erfordert keine zusätzliche Verarbeitung der Videos, wie etwa Vordergrunddetektion, Interesspunkterkennung oder -verfolgung.