HyperAIHyperAI
vor 8 Tagen

Modalitätsbewusste kontrastive Instanzlernung mit Selbst-Verdünnung für schwach beschriftete audiovisuelle Gewaltdetektion

Jiashuo Yu, Jinyu Liu, Ying Cheng, Rui Feng, Yuejie Zhang
Modalitätsbewusste kontrastive Instanzlernung mit Selbst-Verdünnung für schwach beschriftete audiovisuelle Gewaltdetektion
Abstract

Die schwach beschriftete audio-visuelle Gewaltdetektion zielt darauf ab, Ausschnitte mit multimodalen Gewaltereignissen anhand von Video-Level-Labels zu unterscheiden. Viele vorherige Ansätze führen die audio-visuelle Integration und Interaktion in einem frühen oder mittleren Stadium durch, wobei jedoch die Modality-Heterogenität im Kontext der schwach beschrifteten Lernumgebung übersehen wird. In diesem Paper analysieren wir die Phänomene der Modality-Asynchronität und der ununterscheidbaren Instanzen im Rahmen des Multiple-Instance-Learning (MIL)-Prozesses und untersuchen weiterhin deren negativen Einfluss auf das schwach beschriftete audio-visuelle Lernen. Um diese Probleme zu adressieren, schlagen wir eine modality-orientierte kontrastive Instanzlernstrategie mit Selbst-Distillation (MACIL-SD) vor. Konkret nutzen wir ein leichtgewichtiges Zweistrom-Netzwerk, um audio- und visuelle Bags zu generieren, wobei unimodale Hintergrund-, Gewalt- und normale Instanzen auf unsupervisierter Basis in semi-Bags gruppiert werden. Anschließend werden die audio- und visuellen Gewalt-semi-Bags als positive Paare zusammengefasst, während Gewalt-semi-Bags mit Hintergrund- und normalen Instanzen in der entgegengesetzten Modality als kontrastive negative Paare verwendet werden. Darüber hinaus wird ein Selbst-Distillation-Modul eingesetzt, um unimodale visuelle Kenntnisse auf das audio-visuelle Modell zu übertragen, was Rauschen reduziert und die semantische Lücke zwischen unimodalen und multimodalen Merkmalen schließt. Experimente zeigen, dass unser Framework auf dem großskaligen XD-Violence-Datensatz sowohl die Leistung früherer Methoden übertrifft als auch eine geringere Komplexität aufweist. Die Ergebnisse belegen zudem, dass unser vorgeschlagener Ansatz als Plug-in-Module zur Verbesserung anderer Netzwerke genutzt werden kann. Der Quellcode ist unter https://github.com/JustinYuu/MACIL_SD verfügbar.

Modalitätsbewusste kontrastive Instanzlernung mit Selbst-Verdünnung für schwach beschriftete audiovisuelle Gewaltdetektion | Neueste Forschungsarbeiten | HyperAI