Temporale Faltungssnetze für Aktionensegmentierung und -detektion

Die Fähigkeit, feingranulare menschliche Aktionen in einem Video zeitlich zu identifizieren und zu segmentieren, ist für Robotik, Überwachung, Bildung und darüber hinaus von entscheidender Bedeutung. Typische Ansätze lösen dieses Problem, indem sie zunächst lokale räumlich-zeitliche Merkmale aus Videobildern extrahieren und diese dann in einen zeitlichen Klassifikator füttern, der hochwertige zeitliche Muster erfasst. Wir stellen eine neue Klasse von zeitlichen Modellen vor, die wir Temporal Convolutional Networks (TCNs) nennen. Diese nutzen eine Hierarchie von zeitlichen Faltungen, um feingranulare Aktionensegmentierung oder -detektion durchzuführen. Unser Encoder-Decoder-TCN verwendet Pooling und Upsampling, um langfristige zeitliche Muster effizient zu erfassen, während unser Dilated-TCN dilatierte Faltungen anwendet. Wir zeigen, dass TCNs in der Lage sind, Aktionenkompositionen, Segmentdauern und langfristige Abhängigkeiten zu erfassen und mehr als ein Mal schneller trainiert werden können als konkurrierende LSTM-basierte rekurrente Neuronale Netze. Wir wenden diese Modelle auf drei anspruchsvolle feingranulare Datensätze an und demonstrieren dabei große Verbesserungen im Vergleich zum aktuellen Stand der Technik.