HyperAIHyperAI

Command Palette

Search for a command to run...

Modalitätsbewusste kontrastive Instanzlernung mit Selbst-Verdünnung für schwach beschriftete audiovisuelle Gewaltdetektion

Jiashuo Yu Jinyu Liu Ying Cheng Rui Feng Yuejie Zhang

Zusammenfassung

Die schwach beschriftete audio-visuelle Gewaltdetektion zielt darauf ab, Ausschnitte mit multimodalen Gewaltereignissen anhand von Video-Level-Labels zu unterscheiden. Viele vorherige Ansätze führen die audio-visuelle Integration und Interaktion in einem frühen oder mittleren Stadium durch, wobei jedoch die Modality-Heterogenität im Kontext der schwach beschrifteten Lernumgebung übersehen wird. In diesem Paper analysieren wir die Phänomene der Modality-Asynchronität und der ununterscheidbaren Instanzen im Rahmen des Multiple-Instance-Learning (MIL)-Prozesses und untersuchen weiterhin deren negativen Einfluss auf das schwach beschriftete audio-visuelle Lernen. Um diese Probleme zu adressieren, schlagen wir eine modality-orientierte kontrastive Instanzlernstrategie mit Selbst-Distillation (MACIL-SD) vor. Konkret nutzen wir ein leichtgewichtiges Zweistrom-Netzwerk, um audio- und visuelle Bags zu generieren, wobei unimodale Hintergrund-, Gewalt- und normale Instanzen auf unsupervisierter Basis in semi-Bags gruppiert werden. Anschließend werden die audio- und visuellen Gewalt-semi-Bags als positive Paare zusammengefasst, während Gewalt-semi-Bags mit Hintergrund- und normalen Instanzen in der entgegengesetzten Modality als kontrastive negative Paare verwendet werden. Darüber hinaus wird ein Selbst-Distillation-Modul eingesetzt, um unimodale visuelle Kenntnisse auf das audio-visuelle Modell zu übertragen, was Rauschen reduziert und die semantische Lücke zwischen unimodalen und multimodalen Merkmalen schließt. Experimente zeigen, dass unser Framework auf dem großskaligen XD-Violence-Datensatz sowohl die Leistung früherer Methoden übertrifft als auch eine geringere Komplexität aufweist. Die Ergebnisse belegen zudem, dass unser vorgeschlagener Ansatz als Plug-in-Module zur Verbesserung anderer Netzwerke genutzt werden kann. Der Quellcode ist unter https://github.com/JustinYuu/MACIL_SD verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp