HyperAIHyperAI

Command Palette

Search for a command to run...

Ein genauerer Blick auf räumlich-zeitliche Faltungen für die Aktionserkennung

Du Tran Heng Wang Lorenzo Torresani Jamie Ray Yann LeCun Manohar Paluri

Zusammenfassung

In dieser Arbeit diskutieren wir verschiedene Formen von räumlich-zeitlichen Faltungen für die Videoanalyse und untersuchen ihre Auswirkungen auf die Aktionserkennung. Unsere Motivation geht darauf zurück, dass 2D-CNNs, die auf einzelne Frames des Videos angewendet werden, in der Aktionserkennung weiterhin zuverlässige Leistung erzielen. In dieser Studie zeigen wir empirisch die Genauigkeitsvorteile von 3D-CNNs gegenüber 2D-CNNs im Rahmen des residuellen Lernens. Darüber hinaus weisen wir nach, dass das Zerlegen der 3D-FaltungsfILTER in getrennte räumliche und zeitliche Komponenten erhebliche Vorteile in Bezug auf Genauigkeit bietet. Unser empirisches Studium führt zur Entwicklung eines neuen räumlich-zeitlichen Faltungsblocks „R(2+1)D“, der es ermöglicht, CNNs zu konstruieren, die vergleichbare oder überlegene Ergebnisse im Vergleich zum Stand der Technik auf Sports-1M, Kinetics, UCF101 und HMDB51 erzielen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp