Robuste Echtzeit-Violenzdetektion in Videos mittels CNN und LSTM
Die Erkennung von Gewaltereignissen in Überwachungssystemen spielt eine entscheidende Rolle für die Strafverfolgung und die Sicherheit in Städten. Die Effektivität von Gewaltdetektoren wird anhand der Reaktionsgeschwindigkeit, der Genauigkeit sowie der Allgemeingültigkeit über verschiedene Videoquellen mit unterschiedlichen Formaten gemessen. Mehrere Studien haben sich mit der Gewaltdetektion beschäftigt, wobei der Fokus entweder auf Geschwindigkeit, Genauigkeit oder beidem lag – jedoch ohne ausreichende Berücksichtigung der Allgemeingültigkeit über verschiedene Arten von Videoquellen. In diesem Artikel präsentieren wir einen Echtzeit-Gewaltdetektor basierend auf Deep-Learning-Methoden. Das vorgeschlagene Modell setzt sich aus einer Convolutional Neural Network (CNN) als räumlicher Merkmalsextraktor und einer Long Short-Term Memory (LSTM)-Einheit als Methode zur Lernung zeitlicher Beziehungen zusammen, wobei besonderes Augenmerk auf die drei Faktoren Gesamtgeneralität, Genauigkeit und schnelle Reaktionszeit gelegt wird. Das vorgeschlagene Modell erreicht eine Genauigkeit von 98 % bei einer Geschwindigkeit von 131 Bildern pro Sekunde. Ein Vergleich der Genauigkeit und Geschwindigkeit des vorgeschlagenen Modells mit vorherigen Arbeiten zeigt, dass das Modell im Vergleich zu allen vorherigen Arbeiten im Bereich der Gewaltdetektion die höchste Genauigkeit und die schnellste Verarbeitungsgeschwindigkeit bietet.