Temporale Segmentnetzwerke: Auf dem Weg zu guten Praktiken für die tiefe Aktionserkennung

Tiefe Faltungsschichtnetze (Deep Convolutional Networks) haben bei der visuellen Erkennung in Bildern großes Erfolgs gehabt. Bei der Aktionserkennung in Videos ist jedoch der Vorteil gegenüber traditionellen Methoden weniger offensichtlich. Dieses Papier strebt an, die Prinzipien zur Gestaltung effektiver ConvNet-Architekturen für die Aktionserkennung in Videos zu entdecken und diese Modelle bei begrenzten Trainingsdaten zu lernen.Unser erster Beitrag ist das Temporale Segmentnetzwerk (Temporal Segment Network, TSN), ein neuartiges Framework für die Aktionserkennung in Videos. Es basiert auf dem Konzept des langfristigen zeitlichen Strukturbauens. Es kombiniert eine Strategie der dünnen zeitlichen Abtastung (sparse temporal sampling) und die Überwachung auf Videoebene, um effizientes und effektives Lernen mit dem gesamten Aktionsvideo zu ermöglichen. Der zweite Beitrag besteht in unserer Untersuchung einer Reihe von bewährten Methoden beim Lernen von ConvNets auf Videodaten unter Verwendung des temporalen Segmentnetzwerks.Unsere Methode erreicht den aktuellen Stand der Technik (state-of-the-art) auf den Datensätzen HMDB51 ($69{,}4\,\%$) und UCF101 ($94{,}2\,\%$). Wir visualisieren auch die gelernten ConvNet-Modelle, was qualitativ die Effektivität des temporalen Segmentnetzwerks und der vorgeschlagenen bewährten Methoden zeigt.