HyperAIHyperAI
vor 2 Monaten

Neu denken der räumlich-zeitlichen Merkmalslernen: Geschwindigkeits-Genauigkeit-Kompromisse in der Videoklassifizierung

Saining Xie; Chen Sun; Jonathan Huang; Zhuowen Tu; Kevin Murphy
Neu denken der räumlich-zeitlichen Merkmalslernen: Geschwindigkeits-Genauigkeit-Kompromisse in der Videoklassifizierung
Abstract

Trotz des stetigen Fortschritts in der Videoanalyse durch die Einführung von Faltungsneuronalen Netzen (CNNs) war der relative Verbesserungsschritt weniger drastisch als bei der Klassifikation statischer 2D-Bilder. Drei Hauptausforderungen bestehen: die Darstellung räumlicher (bildlicher) Merkmale, die Darstellung zeitlicher Informationen und die Komplexität von Modell und Berechnung. Kürzlich zeigten Carreira und Zisserman, dass 3D-CNNs, die aus 2D-Netzwerken aufgeblasen wurden und auf ImageNet vortrainiert wurden, eine vielversprechende Methode für das Lernen räumlicher und zeitlicher Darstellungen sein könnten. Was jedoch die Komplexität von Modell und Berechnung betrifft, sind 3D-CNNs erheblich teurer als 2D-CNNs und neigen zur Überanpassung. Wir streben ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit an, indem wir ein effektives und effizientes Videosklassifikationssystem durch systematische Untersuchung kritischer Netzwerkdesignentscheidungen entwickeln. Insbesondere zeigen wir, dass es möglich ist, viele der 3D-Faltungen durch kostengünstige 2D-Faltungen zu ersetzen. Überraschenderweise wird das beste Ergebnis (in Bezug auf Geschwindigkeit und Genauigkeit) erreicht, wenn man die 3D-Faltungen am unteren Ende des Netzwerks durch 2D-Faltungen ersetzt, was darauf hindeutet, dass das Lernen zeitlicher Darstellungen auf hochstufigen semantischen Merkmalen nützlicher ist. Unsere Schlussfolgerungen gelten auch für Datensätze mit sehr unterschiedlichen Eigenschaften. Wenn man diese mit mehreren anderen kosteneffizienten Designentscheidungen kombiniert – einschließlich separierter räumlicher/zeitlicher Faltung und Feature-Gating – ergibt unser System ein effektives Videosklassifikationssystem, das sehr wettbewerbsfähige Ergebnisse auf mehreren Aktionserkennungsbenchmarks (Kinetics, Something-something, UCF101 und HMDB) sowie zwei Aktionserkennungs- (Lokalisierung) Benchmarks (JHMDB und UCF101-24) liefert.