Thin-Slicing Network: Ein tiefes strukturiertes Modell für die Pose-Schätzung in Videos

Tiefe ConvNets (Convolutional Neural Networks) haben sich als effektiv für die Aufgabe der Schätzungen der menschlichen Körperhaltung aus einzelnen Bildern erwiesen. Allerdings treten bei video-basierten Anwendungen mehrere herausfordernde Probleme auf, wie Selbstverdeckung, Bewegungsunschärfe und ungewöhnliche Haltungen, die in den Trainingsdatensätzen nur selten oder gar nicht vertreten sind. Zeitliche Informationen können zusätzliche Hinweise über die Position von Körperteilen liefern und helfen, diese Probleme zu lindern. In dieser Arbeit schlagen wir ein tiefes strukturiertes Modell vor, um eine Folge von menschlichen Körperhaltungen in unbeschränkten Videos zu schätzen. Dieses Modell kann effizient in einem end-to-end Prozess trainiert werden und ist in der Lage, das Erscheinungsbild von Körperteilen und ihre räumlich-zeitlichen Beziehungen gleichzeitig darzustellen. Fachwissen über den menschlichen Körper wird explizit in das Netzwerk integriert, um effektive A-priori-Informationen bereitzustellen, die die Skelettstruktur regulieren und zeitliche Konsistenz erzwingen. Die vorgeschlagene end-to-end Architektur wurde anhand zweier weit verbreiteter Benchmarks (Penn Action Datensatz und JHMDB Datensatz) für video-basierte Pose-Schätzungen evaluiert. Unser Ansatz übertreffen die existierenden Stand der Technik-Methoden erheblich.