HyperAIHyperAI
vor 17 Tagen

Effiziente Daten-Video-Transformer für die Gewaltdetektion

{almamon rasool abdali}
Abstract

In intelligent Städten ist die Erkennung von Gewaltereignissen entscheidend für die Sicherheit der Stadt. Mehrere Studien zu diesem Thema haben sich auf die 2D-Convolutional Neural Network (2D-CNN) konzentriert, um räumliche Merkmale aus jedem Frame zu extrahieren, gefolgt von einer Variante des rekurrenten neuronalen Netzes (RNN) als Methode zur Lernung zeitlicher Merkmale. Andererseits haben Transformer-Netzwerke in vielen Bereichen hervorragende Ergebnisse erzielt. Der Hauptnachteil von Transformer-Modellen liegt in der Notwendigkeit großer Datensätze, um gute Leistungen zu erzielen. In dieser Arbeit schlagen wir einen dateneffizienten Video-Transformer (DeVTr) basierend auf dem Transformer-Netzwerk als spatio-temporale Lernmethode vor, wobei ein vortrainiertes 2D-Convolutional Neural Network (2D-CNN) als Embedding-Schicht für die Eingabedaten dient. Das Modell wurde anhand des Real-life Violence Dataset (RLVS) trainiert und getestet und erreichte eine Genauigkeit von 96,25 %. Ein Vergleich der Ergebnisse der vorgeschlagenen Methode mit bisherigen Ansätzen zeigt, dass die vorgeschlagene Methode im Vergleich zu allen anderen Studien zur Erkennung von Gewaltereignissen die bestmögliche Leistung erzielt.