Ein genauerer Blick auf räumlich-zeitliche Faltungen für die Aktionserkennung

In dieser Arbeit diskutieren wir verschiedene Formen von räumlich-zeitlichen Faltungen für die Videoanalyse und untersuchen ihre Auswirkungen auf die Aktionserkennung. Unsere Motivation geht darauf zurück, dass 2D-CNNs, die auf einzelne Frames des Videos angewendet werden, in der Aktionserkennung weiterhin zuverlässige Leistung erzielen. In dieser Studie zeigen wir empirisch die Genauigkeitsvorteile von 3D-CNNs gegenüber 2D-CNNs im Rahmen des residuellen Lernens. Darüber hinaus weisen wir nach, dass das Zerlegen der 3D-FaltungsfILTER in getrennte räumliche und zeitliche Komponenten erhebliche Vorteile in Bezug auf Genauigkeit bietet. Unser empirisches Studium führt zur Entwicklung eines neuen räumlich-zeitlichen Faltungsblocks „R(2+1)D“, der es ermöglicht, CNNs zu konstruieren, die vergleichbare oder überlegene Ergebnisse im Vergleich zum Stand der Technik auf Sports-1M, Kinetics, UCF101 und HMDB51 erzielen.