Menschliche Skelette und Änderungserkennung für eine effiziente Gewaltdetektion in Überwachungsvideos
In unserer stetig überwachten Welt spielen Überwachungskameras eine entscheidende Rolle bei der Bekämpfung von Kriminalität und Gewalt in öffentlichen Räumen, da sie als Abschreckung wirken. Um ihre Wirksamkeit weiter zu steigern, besteht ein wachsender Bedarf an automatisierten Werkzeugen, die Kriminalität in Echtzeit erkennen können. In diesem Artikel präsentieren wir eine neuartige Architektur des tiefen Lernens, die gewalttätige Delikte in Überwachungsvideos präzise und effizient erkennt. Wir stützen uns auf, was wir für die wesentlichen Informationen zur Gewaltdetektion halten: menschliche Körper und deren Interaktion. Dazu nutzen wir menschliche Pose-Extraktoren und Änderungsdetektoren als Eingabedaten für unseren Ansatz. Anschließend kombinieren wir diese mittels einer innovativen Methode, die statt Multiplikationen Additionen verwendet, um sicherzustellen, dass auch dann noch Informationen übertragen werden, wenn eine der Eingaben einen nullwertigen Signalwert liefert – wodurch sie andere Kombinationsansätze aus der Literatur übertrifft. Schließlich berücksichtigen wir sowohl räumliche als auch zeitliche Informationen durch eine konvolutionale Variante des herkömmlichen LSTM, den ConvLSTM. Die durchgeführten Experimente an mehreren Benchmark-Datensätzen belegen die Wirksamkeit und Effizienz unseres Vorschlags, wobei state-of-the-art-Ergebnisse mit deutlich weniger trainierbaren Parametern erzielt werden. Den Quellcode zur Nachvollziehbarkeit der vorgeschlagenen Architektur stellen wir unter https://github.com/atmguille/Violence-Detection-With-Human-Skeletons zur Verfügung.