HyperAIHyperAI
vor 17 Tagen

Ein zeitlicher Fusionansatz für die Videoklassifikation mit Faltungs- und LSTM-Neuralen Netzen zur Gewaltdetektion

{Carlos Maur´ıcio Ser´odio Figueiredo, Jean Phelipe de Oliveira Lima}
Abstract

In modernen Smart Cities besteht ein Streben nach höchster Integration und Automatisierung von Dienstleistungen. Im Bereich der Überwachung stellt eine der zentralen Herausforderungen die Automatisierung der Echtzeit-Analyse von Videodaten dar, um kritische Situationen zu erkennen. In diesem Beitrag werden intelligente Modelle vorgestellt, die auf Convolutional Neural Networks (darunter MobileNet, InceptionV3 und VGG16), LSTM-Netzwerken sowie Feedforward-Netzwerken basieren, um Videos anhand der Klassen „Gewalt“ und „Keine Gewalt“ zu klassifizieren, wobei die RLVS-Datenbank verwendet wird. Unterschiedliche Datendarstellungen wurden im Rahmen von Temporal Fusion-Techniken eingesetzt. Das beste erzielte Ergebnis betrug eine Genauigkeit (Accuracy) von 0,91 und ein F1-Score von 0,90 – Werte, die gegenüber ähnlichen Studien, die auf derselben Datenbank arbeiteten, signifikant höher sind.

Ein zeitlicher Fusionansatz für die Videoklassifikation mit Faltungs- und LSTM-Neuralen Netzen zur Gewaltdetektion | Neueste Forschungsarbeiten | HyperAI