HyperAIHyperAI
vor 18 Tagen

Vergleichende Analyse von CNN-basierten spatiotemporalen Schlussfolgerungen in Videos

Okan Köpüklü, Fabian Herzog, Gerhard Rigoll
Vergleichende Analyse von CNN-basierten spatiotemporalen Schlussfolgerungen in Videos
Abstract

Die Erkennung von Aktionen und Gesten in Videostreams erfordert eine zeitliche Schlussfolgerung bezüglich des räumlichen Inhalts aus verschiedenen Zeitpunkten, also eine spatiotemporale (ST) Modellierung. In diesem Übersichtsartikel führen wir eine vergleichende Analyse verschiedener ST-Modellierungstechniken für Aufgaben der Aktion- und Gestenerkennung durch. Da sich gezeigt hat, dass Faltungsneuronale Netze (CNNs) ein effektives Werkzeug zur Merkmalsextraktion aus statischen Bildern darstellen, wenden wir ST-Modellierungstechniken auf die von CNNs aus verschiedenen Zeitpunkten extrahierten Merkmale statischer Bilder an. Alle Techniken werden end-to-end gemeinsam mit dem CNN-basierten Merkmalsextraktionsmodul trainiert und an zwei öffentlich verfügbaren Benchmarks evaluiert: dem Jester- und dem Something-Something-Datensatz. Der Jester-Datensatz enthält eine Vielzahl dynamischer und statischer Handgesten, während der Something-Something-Datensatz Aktionen menschlicher Interaktionen mit Objekten umfasst. Gemeinsam ist diesen beiden Benchmarks, dass die entwickelten Architekturen die gesamte zeitliche Dynamik der Videos erfassen müssen, um Aktionen/Gesten korrekt zu klassifizieren. Im Gegensatz zu Erwartungen zeigen die experimentellen Ergebnisse, dass ST-Modellierungstechniken basierend auf rekurrenten neuronalen Netzen (RNNs) schlechtere Ergebnisse liefern als andere Ansätze, beispielsweise vollständig faltungsorientierte Architekturen. Die Quellcodes und vortrainierten Modelle dieses Werkes sind öffentlich zugänglich.