HyperAIHyperAI
vor 8 Tagen

Audio-Guided Attention Network für die schwach überwachte Gewaltdetektion

{Xiaoyu Wu, Yujiang Pu}
Abstract

Die Erkennung von Gewalt in Videos ist aufgrund komplexer Szenarien und großer intra-klassischer Variabilität eine herausfordernde Aufgabe. Die meisten bisherigen Ansätze konzentrieren sich entweder auf die Analyse von Erscheinungsbild- oder Bewegungsinformationen und ignorieren dabei die gleichzeitige Auftretens bestimmter akustischer und visueller Ereignisse. Physische Konflikte wie Misshandlungen oder Schlägereien sind typischerweise mit Schreien verbunden, während Massengewalt wie Ausschreitungen oder Kriege gewöhnlich mit Schüssen und Explosionen einhergehen. Daher schlagen wir einen neuartigen, audio-gesteuerten multimodalen Ansatz zur Gewalterkennung vor. Zunächst werden tiefgreifende neuronale Netze eingesetzt, um visuelle und akustische Merkmale separat zu extrahieren. Anschließend wird ein Cross-Modal Awareness Local-Arousal (CMA-LA)-Netzwerk vorgestellt, das intermodale Wechselwirkungen ermöglicht und die visuellen Merkmale über die Zeitdimension durch Audio-Informationen verbessert. Die verfeinerten Merkmale werden anschließend einem mehrschichtigen Perzeptron (MLP) zugeführt, um hochwertige semantische Informationen zu erfassen, gefolgt von einer zeitlichen Faltungs-Schicht zur Generierung von hochzuverlässigen Gewaltscores. Zur Validierung des vorgeschlagenen Verfahrens führen wir Experimente auf einer großen Datenbank gewalttätiger Videos, der XD Violence-Datenbank, durch. Umfassende Experimente belegen die Robustheit unseres Ansatzes, der zudem eine neue State-of-the-Art-AP-Ergebnis erzielt.