Poselet Key-Framing: Ein Modell für die Menschliche Aktivitäts-Erkennung

In diesem Paper entwickeln wir ein neues Modell zur Erkennung menschlicher Aktionen. Eine Aktion wird dabei als extrem spärliche Folge zeitlich lokaler, diskriminativer Schlüsselbilder dargestellt, die jeweils Teilmengen charakteristischer Körperhaltungen (key-poses) des Akteurs oder der Akteure enthalten und Schlüsselzustände in der Aktionsserie abbilden. Wir formulieren die Lernung der Schlüsselbilder innerhalb eines Max-Margin-Diskriminativ-Rahmens, wobei wir die Schlüsselbilder als latente Variablen behandeln. Dadurch können wir (gemeinsam) eine Menge der diskriminativsten Schlüsselbilder lernen, gleichzeitig aber auch den lokalen zeitlichen Kontext zwischen ihnen erlernen. Die Schlüsselbilder werden mittels einer räumlich lokalisierbaren, poselet-ähnlichen Darstellung kodiert, die Komponenten basierend auf HoG (Histogram of Oriented Gradients) und BoW (Bag of Words) umfasst, die aus schwachen Annotationen gelernt wurden. Wir stützen uns auf eine strukturierte SVM-Formulierung, um unsere Komponenten zu alignen und harte Negative zu extrahieren, um die Lokalisierungsgenauigkeit zu verbessern. Das resultierende Modell ermöglicht eine spatio-temporale Lokalisierung und ist robust gegenüber ausgelassenen Bildern oder partiellen Beobachtungen. Wir zeigen eine Klassifizierungsleistung, die mit dem Stand der Technik auf dem Benchmark-Datensatz UT-Interaction konkurrieren kann, und demonstrieren, dass unser Modell in einem on-line-Streaming-Setting gegenüber vorhergehenden Ansätzen überlegen ist.