Spatio-temporale Residuen-Netzwerke für die Erkennung von Videoaktionen

Zweistrom-Faltungsnetze (ConvNets) haben bei der Erkennung menschlicher Aktivitäten in Videos starke Leistungen gezeigt. Kürzlich sind Residuelle Netze (ResNets) als eine neue Technik zur Ausbildung extrem tiefer Architekturen aufgetreten. In dieser Arbeit führen wir räumlich-zeitliche ResNets als Kombination dieser beiden Ansätze ein. Unsere neuartige Architektur verallgemeinert ResNets für den räumlich-zeitlichen Bereich, indem sie residuelle Verbindungen auf zwei Arten einführt. Erstens injizieren wir residuelle Verbindungen zwischen den Erscheinungs- und Bewegungswegen einer zweistromigen Architektur, um eine räumlich-zeitliche Interaktion zwischen den beiden Strömen zu ermöglichen. Zweitens transformieren wir vortrainierte Bild-ConvNets in räumlich-zeitliche Netze, indem wir diese mit lernfähigen Faltungsfiltern ausstatten, die als zeitliche residuale Verbindungen initialisiert werden und auf benachbarten Merkmalskarten in der Zeit operieren. Dieser Ansatz erhöht das räumlich-zeitliche Rezeptivfeld langsam, während die Tiefe des Modells zunimmt, und integriert natürliche Designprinzipien von Bild-ConvNets. Das gesamte Modell wird von Anfang bis Ende trainiert, um hierarchisches Lernen komplexer räumlich-zeitlicher Merkmale zu ermöglichen. Wir bewerten unser neuartiges räumlich-zeitliches ResNet anhand von zwei weit verbreiteten Benchmarks für Aktionserkennung, bei denen es den bisherigen Stand der Technik übertrifft.