Zwei-Ströme-Faltungssnetze für die Aktionserkennung in Videos

Wir untersuchen Architekturen von diskriminativ trainierten tiefen Faltungsnetzen (ConvNets) für die Aktionserkennung in Videos. Die Herausforderung besteht darin, die komplementären Informationen über das Erscheinungsbild aus einzelnen Bildern und die Bewegung zwischen den Bildern zu erfassen. Zudem streben wir an, die besten manuell gestalteten Merkmale innerhalb eines datengetriebenen Lernframeworks zu verallgemeinern.Unser Beitrag gliedert sich in drei Teile. Erstens schlagen wir eine zweistromige ConvNet-Architektur vor, die räumliche und zeitliche Netze integriert. Zweitens zeigen wir, dass ein ConvNet, das auf mehrfachem dichten optischen Fluss trainiert wurde, trotz begrenzter Trainingsdaten sehr gute Leistungen erzielen kann. Drittens demonstrieren wir, dass das Mehrfachaufgabenlernen (Multi-task Learning), wenn es auf zwei verschiedene Aktionserkennungs-Datensätze angewendet wird, verwendet werden kann, um die Menge der Trainingsdaten zu erhöhen und die Leistung auf beiden Datensätzen zu verbessern.Unsere Architektur wird auf den Standard-Benchmarks für Videoaktionen UCF-101 und HMDB-51 trainiert und evaluiert, wo sie mit dem aktuellen Stand der Technik konkurrieren kann. Sie übertreffen zudem deutlich frühere Versuche, tiefe Netze für die Videoklassifizierung einzusetzen.