HyperAIHyperAI

Command Palette

Search for a command to run...

Großskalige Videoklassifikation mit Faltungsneuralen Netzen

Li Fei-Fei Rahul Sukthankar Thomas Leung George Toderici Sanketh Shetty Andrej Karpathy

Zusammenfassung

Convolutional Neural Networks (CNNs) haben sich als eine leistungsstarke Klasse von Modellen für Aufgaben der Bilderkennung etabliert. Angeregt durch diese Ergebnisse führen wir eine umfassende empirische Evaluierung von CNNs für die Video-Klassifikation auf großem Maßstab durch, basierend auf einem neuen Datensatz aus einer Million YouTube-Videos, die auf 487 Klassen verteilt sind. Wir untersuchen mehrere Ansätze zur Erweiterung der Verbindungsdichte eines CNNs im zeitlichen Bereich, um lokale räumlich-zeitliche Informationen besser auszunutzen, und schlagen eine multiresolutionale, foveale Architektur als vielversprechende Möglichkeit zur Beschleunigung des Trainings vor. Unsere besten räumlich-zeitlichen Netzwerke zeigen gegenüber starken, merkmalsbasierten Baselines signifikante Leistungsverbesserungen (von 55,3 % auf 63,9 %), jedoch nur eine überraschend geringe Verbesserung gegenüber Einzelbild-Modellen (von 59,3 % auf 60,9 %). Darüber hinaus untersuchen wir die Generalisierungsfähigkeit unseres besten Modells, indem wir die oberen Schichten erneut auf dem UCF-101-Action-Recognition-Datensatz trainieren, und beobachten dabei erhebliche Leistungssteigerungen im Vergleich zum UCF-101-Baseline-Modell (63,3 % gegenüber 43,9 %).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp