HyperAIHyperAI

Command Palette

Search for a command to run...

Neu denken der räumlich-zeitlichen Merkmalslernen: Geschwindigkeits-Genauigkeit-Kompromisse in der Videoklassifizierung

Saining Xie; Chen Sun; Jonathan Huang; Zhuowen Tu; Kevin Murphy

Zusammenfassung

Trotz des stetigen Fortschritts in der Videoanalyse durch die Einführung von Faltungsneuronalen Netzen (CNNs) war der relative Verbesserungsschritt weniger drastisch als bei der Klassifikation statischer 2D-Bilder. Drei Hauptausforderungen bestehen: die Darstellung räumlicher (bildlicher) Merkmale, die Darstellung zeitlicher Informationen und die Komplexität von Modell und Berechnung. Kürzlich zeigten Carreira und Zisserman, dass 3D-CNNs, die aus 2D-Netzwerken aufgeblasen wurden und auf ImageNet vortrainiert wurden, eine vielversprechende Methode für das Lernen räumlicher und zeitlicher Darstellungen sein könnten. Was jedoch die Komplexität von Modell und Berechnung betrifft, sind 3D-CNNs erheblich teurer als 2D-CNNs und neigen zur Überanpassung. Wir streben ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit an, indem wir ein effektives und effizientes Videosklassifikationssystem durch systematische Untersuchung kritischer Netzwerkdesignentscheidungen entwickeln. Insbesondere zeigen wir, dass es möglich ist, viele der 3D-Faltungen durch kostengünstige 2D-Faltungen zu ersetzen. Überraschenderweise wird das beste Ergebnis (in Bezug auf Geschwindigkeit und Genauigkeit) erreicht, wenn man die 3D-Faltungen am unteren Ende des Netzwerks durch 2D-Faltungen ersetzt, was darauf hindeutet, dass das Lernen zeitlicher Darstellungen auf hochstufigen semantischen Merkmalen nützlicher ist. Unsere Schlussfolgerungen gelten auch für Datensätze mit sehr unterschiedlichen Eigenschaften. Wenn man diese mit mehreren anderen kosteneffizienten Designentscheidungen kombiniert – einschließlich separierter räumlicher/zeitlicher Faltung und Feature-Gating – ergibt unser System ein effektives Videosklassifikationssystem, das sehr wettbewerbsfähige Ergebnisse auf mehreren Aktionserkennungsbenchmarks (Kinetics, Something-something, UCF101 und HMDB) sowie zwei Aktionserkennungs- (Lokalisierung) Benchmarks (JHMDB und UCF101-24) liefert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp