Temporale Segmentnetzwerke für die Aktionserkennung in Videos

Tiefe Faltungsschichten-Netzwerke (Deep Convolutional Networks) haben bei der Bilderkennung großen Erfolg erzielt. Bei der Aktionserkennung in Videos ist jedoch ihr Vorteil gegenüber traditionellen Methoden weniger offensichtlich. Wir stellen einen allgemeinen und flexiblen Video-Level-Rahmen zur Lernaktion in Videos vor. Diese Methode, als zeitlicher Segmentnetzwerk (Temporal Segment Network, TSN) bezeichnet, zielt darauf ab, langfristige zeitliche Strukturen mit einem neuen segmentbasierten Abtastungs- und Aggregationsmodul zu modellieren. Diese einzigartige Gestaltung ermöglicht es unserem TSN, Aktionen durch die Verwendung des gesamten Aktionsvideos effizient zu lernen. Die gelernten Modelle können leicht angepasst werden, um sowohl in gekürzten als auch in ungekürzten Videos Aktionen zu erkennen, wobei für die erstere einfache Durchschnittspooling und für die letztere Integration über mehrskalige zeitliche Fenster verwendet wird. Wir untersuchen zudem eine Reihe guter Praktiken für die Instanziierung des TSN-Rahmens bei begrenzten Trainingsbeispielen. Unser Ansatz erreicht den aktuellen Stand der Technik auf vier anspruchsvollen Benchmarks für Aktionserkennung: HMDB51 (71,0 %), UCF101 (94,9 %), THUMOS14 (80,1 %) und ActivityNet v1.2 (89,6 %). Durch die Verwendung des vorgeschlagenen RGB-Differenzverfahrens für Bewegungsmodelle kann unsere Methode immer noch eine wettbewerbsfähige Genauigkeit von 91,0 % auf UCF101 erreichen und dabei mit einer Geschwindigkeit von 340 FPS laufen. Darüber hinaus haben wir im Rahmen des ActivityNet-Challenges 2016 unter 24 Teams den Wettbewerbstrack für Videoklassifikation gewonnen, was die Effektivität von TSN und den vorgeschlagenen guten Praktiken unterstreicht.