HyperAIHyperAI
vor 17 Tagen

Großskalige Videoklassifikation mit Faltungsneuralen Netzen

{Li Fei-Fei, Rahul Sukthankar, Thomas Leung, George Toderici, Sanketh Shetty, Andrej Karpathy}
Großskalige Videoklassifikation mit Faltungsneuralen Netzen
Abstract

Convolutional Neural Networks (CNNs) haben sich als eine leistungsstarke Klasse von Modellen für Aufgaben der Bilderkennung etabliert. Angeregt durch diese Ergebnisse führen wir eine umfassende empirische Evaluierung von CNNs für die Video-Klassifikation auf großem Maßstab durch, basierend auf einem neuen Datensatz aus einer Million YouTube-Videos, die auf 487 Klassen verteilt sind. Wir untersuchen mehrere Ansätze zur Erweiterung der Verbindungsdichte eines CNNs im zeitlichen Bereich, um lokale räumlich-zeitliche Informationen besser auszunutzen, und schlagen eine multiresolutionale, foveale Architektur als vielversprechende Möglichkeit zur Beschleunigung des Trainings vor. Unsere besten räumlich-zeitlichen Netzwerke zeigen gegenüber starken, merkmalsbasierten Baselines signifikante Leistungsverbesserungen (von 55,3 % auf 63,9 %), jedoch nur eine überraschend geringe Verbesserung gegenüber Einzelbild-Modellen (von 59,3 % auf 60,9 %). Darüber hinaus untersuchen wir die Generalisierungsfähigkeit unseres besten Modells, indem wir die oberen Schichten erneut auf dem UCF-101-Action-Recognition-Datensatz trainieren, und beobachten dabei erhebliche Leistungssteigerungen im Vergleich zum UCF-101-Baseline-Modell (63,3 % gegenüber 43,9 %).