I3D-LSTM: Ein neues Modell zur Erkennung menschlicher Aktionen
Die Aktionserkennung ist in letzter Zeit zu einem intensiv untersuchten Forschungsthema geworden, das darauf abzielt, verschiedene menschliche Aktionen in Videos zu klassifizieren. Die derzeit dominierenden Ansätze nutzen allgemein auf ImageNet vortrainierte Modelle als Merkmalsextraktoren. Dies stellt jedoch keine optimale Wahl dar, da ein Modell, das auf einem riesigen Datensatz statischer Bilder für die Klassifikation von Bildern vortrainiert wurde, nicht notwendigerweise für die Verarbeitung von Videos geeignet ist. Darüber hinaus beachten nur wenige Arbeiten, dass 3D-Convolutional Neural Networks (3D CNN) besser geeignet sind, niedrigstufige räumlich-zeitliche Merkmale zu extrahieren, während rekurrente neuronale Netzwerke (RNN) besser für die Modellierung hochstufiger zeitlicher Merkmalsequenzen geeignet sind. In dieser Arbeit wird daher ein neuartiges Modell vorgeschlagen, um die oben genannten zwei Probleme anzugehen. Zunächst trainieren wir ein 3D-CNN-Modell auf dem großen Video-Aktionserkennungsdatensatz Kinetics, um die Allgemeingültigkeit des Modells zu verbessern. Anschließend wird ein Long Short-Term Memory (LSTM)-Netzwerk eingesetzt, um die hochstufigen zeitlichen Merkmale zu modellieren, die vom auf Kinetics vortrainierten 3D-CNN-Modell generiert werden. Unsere Experimente zeigen, dass das auf Kinetics vortrainierte Modell im Allgemeinen die Leistung eines auf ImageNet vortrainierten Modells übertrifft. Unser vorgeschlagenes Netzwerk erreicht schließlich eine führende Performance auf dem UCF-101-Datensatz.