HyperAIHyperAI
vor 2 Monaten

Zuerst Ausrichten, Dann Fusionieren: Eine Neue Schwach Überwachte Mehrmodalen Gewalt-Erkennungsmethode

Jin, Wenping ; Zhu, Li ; Sun, Jing
Zuerst Ausrichten, Dann Fusionieren: Eine Neue Schwach Überwachte Mehrmodalen Gewalt-Erkennungsmethode
Abstract

Schwach überwachte Gewaltendetektion bezieht sich auf die Technik, Modelle zu trainieren, um gewaltsame Sequenzen in Videos unter Verwendung nur von videobasierten Labels zu identifizieren. Unter diesen Ansätzen hat sich die multimodale Gewaltendetektion, die Modalitäten wie Audio und optischen Fluss integriert, großes Potenzial versprochen. Bestehende Methoden in diesem Bereich konzentrieren sich hauptsächlich darauf, multimodale Fusionmodelle zu entwickeln, um Modaldiskrepanzen zu bewältigen. Im Gegensatz dazu gehen wir einen anderen Weg; wir nutzen die inhärenten Diskrepanzen in der Darstellung von Gewaltevents über verschiedene Modalitäten, um eine neuartige Methode zur multimodalen semantischen Merkmalsausrichtung vorzuschlagen. Diese Methode bildet die semantischen Merkmale lokaler, flüchtiger und weniger informativer Modalitäten (wie Audio und optischer Fluss) sparsam in den informativeren RGB-merkmalsraum ab. Durch einen iterativen Prozess identifiziert die Methode den geeigneten nicht-null-Merkmalsabgleichsunterraum und ordnet die modalspezifischen Ereignisdarstellungen auf dieser Grundlage aus, was es ermöglicht, während des nachfolgenden Multimodalitätsfusionsstadiums alle Informationen vollständig zu nutzen. Auf dieser Basis entwickeln wir ein neues schwach überwachtes Framework für Gewaltendetektion, das unimodales Mehrinstanz-Lernen zur Extraktion unimodaler semantischer Merkmale, multimodale Ausrichtung, multimodale Fusion und endgültige Detektion umfasst. Experimentelle Ergebnisse auf Benchmarks-Datensätzen zeigen die Effektivität unserer Methode; sie erreicht eine durchschnittliche Präzision (AP) von 86,07 % auf dem XD-Violence-Datensatz. Unser Code ist unter https://github.com/xjpp2016/MAVD verfügbar.