Späte zeitliche Modellierung in 3D-CNN-Architekturen mit BERT für die Aktionserkennung

In dieser Arbeit kombinieren wir 3D-Konvolutionen mit einer späten zeitlichen Modellierung zur Aktenerkennung. Dazu ersetzen wir die herkömmliche Temporal Global Average Pooling (TGAP)-Schicht am Ende des 3D-Konvolutionsarchitektur durch eine Bidirektionale Encoder-Repräsentationen aus Transformers (BERT)-Schicht, um die zeitlichen Informationen mittels des Aufmerksamkeitsmechanismus von BERT effizienter auszunutzen. Wir zeigen, dass diese Ersetzung die Leistung vieler etablierter 3D-Konvolutionsarchitekturen für die Aktenerkennung verbessert, darunter ResNeXt, I3D, SlowFast und R(2+1)D. Zudem erzielen wir state-of-the-art-Ergebnisse auf den Datensätzen HMDB51 und UCF101 mit jeweils 85,10 % und 98,69 % Top-1-Accuracy. Der Quellcode ist öffentlich verfügbar.