HyperAIHyperAI
vor 2 Monaten

Effiziente Daten-Video-Transformer für die Gewaltdetektion

{almamon rasool abdali}
Effiziente Daten-Video-Transformer für die Gewaltdetektion
Abstract

In intelligent Städten ist die Erkennung von Gewaltereignissen entscheidend für die Sicherheit der Stadt. Mehrere Studien zu diesem Thema haben sich auf die 2D-Convolutional Neural Network (2D-CNN) konzentriert, um räumliche Merkmale aus jedem Frame zu extrahieren, gefolgt von einer Variante des rekurrenten neuronalen Netzes (RNN) als Methode zur Lernung zeitlicher Merkmale. Andererseits haben Transformer-Netzwerke in vielen Bereichen hervorragende Ergebnisse erzielt. Der Hauptnachteil von Transformer-Modellen liegt in der Notwendigkeit großer Datensätze, um gute Leistungen zu erzielen. In dieser Arbeit schlagen wir einen dateneffizienten Video-Transformer (DeVTr) basierend auf dem Transformer-Netzwerk als spatio-temporale Lernmethode vor, wobei ein vortrainiertes 2D-Convolutional Neural Network (2D-CNN) als Embedding-Schicht für die Eingabedaten dient. Das Modell wurde anhand des Real-life Violence Dataset (RLVS) trainiert und getestet und erreichte eine Genauigkeit von 96,25 %. Ein Vergleich der Ergebnisse der vorgeschlagenen Methode mit bisherigen Ansätzen zeigt, dass die vorgeschlagene Methode im Vergleich zu allen anderen Studien zur Erkennung von Gewaltereignissen die bestmögliche Leistung erzielt.

Effiziente Daten-Video-Transformer für die Gewaltdetektion | Forschungsarbeiten | HyperAI