Nicht nur sehen, sondern auch hören: Multimodale Gewaltdetektion unter schwacher Supervision lernen

Die Erkennung von Gewalt wurde in der Computer Vision bereits seit Jahren untersucht. Bisherige Ansätze sind jedoch entweder oberflächlich, beispielsweise Klassifikation kurzer Videoclips unter einer einzigen Szenario-Bedingung, oder unzureichend ausgestattet, beispielsweise auf einer einzigen Modalität basierend oder auf handgefertigten Merkmalen für multimodale Ansätze. Um dieses Problem anzugehen, veröffentlichen wir in dieser Arbeit zunächst einen großskaligen und mehrszenenbasierten Datensatz namens XD-Violence mit einer Gesamtdauer von 217 Stunden, der 4754 ungeschnittene Videos mit Audiosignalen und schwachen Etiketten enthält. Anschließend stellen wir ein neuronales Netzwerk mit drei parallelen Zweigen vor, das verschiedene Beziehungen zwischen Videoclips erfassen und Merkmale integrieren kann: Der „holistische“ Zweig erfasst langfristige Abhängigkeiten mittels einer Ähnlichkeitspriorisierung, der „lokalisierte“ Zweig erfasst lokale räumliche Beziehungen mittels einer Nähepriorisierung, und der „Score“-Zweig erfasst dynamisch die Nähe der vorhergesagten Scores. Darüber hinaus beinhaltet unser Ansatz einen Approximator, um die Anforderungen einer Online-Erkennung zu erfüllen. Unser Verfahren erreicht eine bessere Leistung als andere state-of-the-art-Methoden sowohl auf unserem veröffentlichten Datensatz als auch auf anderen etablierten Benchmarks. Zudem zeigen umfangreiche experimentelle Ergebnisse den positiven Einfluss multimodaler Eingaben (Audio-Visuell) sowie der Modellierung von Beziehungen. Der Quellcode und der Datensatz werden unter https://roc-ng.github.io/XD-Violence/ veröffentlicht.