HyperAIHyperAI
vor 2 Monaten

Jenseits kurzer Ausschnitte: Tiefenetze für die Videoklassifizierung

Joe Yue-Hei Ng; Matthew Hausknecht; Sudheendra Vijayanarasimhan; Oriol Vinyals; Rajat Monga; George Toderici
Jenseits kurzer Ausschnitte: Tiefenetze für die Videoklassifizierung
Abstract

Faltungsneuronale Netze (CNNs) werden weitgehend für Bilderkennungsprobleme eingesetzt und erzielen dabei Stand-der-Technik-Ergebnisse in den Bereichen Erkennung, Detektion, Segmentierung und Retrieval. In dieser Arbeit schlagen und evaluieren wir mehrere tiefen Neuronalnetz-Architekturen vor, um Bildinformationen über längere Zeiträume hinweg in Videos zu kombinieren als bisher versucht wurde. Wir stellen zwei Methoden vor, die in der Lage sind, vollständige Videosequenzen zu verarbeiten. Die erste Methode untersucht verschiedene Architekturen zur Faltung von zeitlichen Merkmalspoolings, wobei verschiedene Gestaltungsoptionen betrachtet werden, die bei der Anpassung eines CNNs für diese Aufgabe getroffen werden müssen. Die zweite vorgeschlagene Methode modelliert das Video explizit als eine geordnete Folge von Frames. Hierfür verwenden wir ein rekurrentes Neuronales Netzwerk, das Long Short-Term Memory (LSTM)-Zellen verwendet, die mit dem Output des zugrundeliegenden CNNs verbunden sind. Unsere besten Netzwerke zeigen erhebliche Leistungsverbesserungen im Vergleich zu früher veröffentlichten Ergebnissen auf dem Sports 1 Million-Datensatz (73,1 % gegenüber 60,9 %) sowie auf den UCF-101-Datensätzen sowohl mit (88,6 % gegenüber 88,0 %) als auch ohne zusätzliche optische Flussinformation (82,6 % gegenüber 72,8 %).