HyperAIHyperAI

Command Palette

Search for a command to run...

Zwei-Ströme-Faltungssnetze für die Aktionserkennung in Videos

Karen Simonyan Andrew Zisserman

Zusammenfassung

Wir untersuchen Architekturen von diskriminativ trainierten tiefen Faltungsnetzen (ConvNets) für die Aktionserkennung in Videos. Die Herausforderung besteht darin, die komplementären Informationen über das Erscheinungsbild aus einzelnen Bildern und die Bewegung zwischen den Bildern zu erfassen. Zudem streben wir an, die besten manuell gestalteten Merkmale innerhalb eines datengetriebenen Lernframeworks zu verallgemeinern.Unser Beitrag gliedert sich in drei Teile. Erstens schlagen wir eine zweistromige ConvNet-Architektur vor, die räumliche und zeitliche Netze integriert. Zweitens zeigen wir, dass ein ConvNet, das auf mehrfachem dichten optischen Fluss trainiert wurde, trotz begrenzter Trainingsdaten sehr gute Leistungen erzielen kann. Drittens demonstrieren wir, dass das Mehrfachaufgabenlernen (Multi-task Learning), wenn es auf zwei verschiedene Aktionserkennungs-Datensätze angewendet wird, verwendet werden kann, um die Menge der Trainingsdaten zu erhöhen und die Leistung auf beiden Datensätzen zu verbessern.Unsere Architektur wird auf den Standard-Benchmarks für Videoaktionen UCF-101 und HMDB-51 trainiert und evaluiert, wo sie mit dem aktuellen Stand der Technik konkurrieren kann. Sie übertreffen zudem deutlich frühere Versuche, tiefe Netze für die Videoklassifizierung einzusetzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp