Ein zeitlicher Fusionansatz für die Videoklassifikation mit Faltungs- und LSTM-Neuralen Netzen zur Gewaltdetektion
In modernen Smart Cities besteht ein Streben nach höchster Integration und Automatisierung von Dienstleistungen. Im Bereich der Überwachung stellt eine der zentralen Herausforderungen die Automatisierung der Echtzeit-Analyse von Videodaten dar, um kritische Situationen zu erkennen. In diesem Beitrag werden intelligente Modelle vorgestellt, die auf Convolutional Neural Networks (darunter MobileNet, InceptionV3 und VGG16), LSTM-Netzwerken sowie Feedforward-Netzwerken basieren, um Videos anhand der Klassen „Gewalt“ und „Keine Gewalt“ zu klassifizieren, wobei die RLVS-Datenbank verwendet wird. Unterschiedliche Datendarstellungen wurden im Rahmen von Temporal Fusion-Techniken eingesetzt. Das beste erzielte Ergebnis betrug eine Genauigkeit (Accuracy) von 0,91 und ein F1-Score von 0,90 – Werte, die gegenüber ähnlichen Studien, die auf derselben Datenbank arbeiteten, signifikant höher sind.