Multi-skalierte Bottleneck-Transformer für schwach überwachte multimodale Gewaltendetung

Die schwach überwachte multimodale Gewaltendetung zielt darauf ab, ein Modell zur Gewaltendetung durch die Nutzung mehrerer Modalitäten wie RGB, optischer Fluss und Audio zu trainieren, wobei nur Videoebenen-Annotierungen verfügbar sind. Im Streben nach einer effektiven multimodalen Gewaltendetung (MVD) werden Informationsredundanz, Modalitätsungleichgewicht und Modalitätsasynchronie als drei wesentliche Herausforderungen identifiziert. In dieser Arbeit schlagen wir eine neue schwach überwachte MVD-Methode vor, die diese Herausforderungen explizit angeht. Insbesondere führen wir ein auf einem Multi-Skalen-Bottleneck-Transformer (MSBT) basierendes Fusionsmodul ein, das durch die Verwendung einer reduzierten Anzahl von Bottleneck-Tokens die Informationen schrittweise verdichtet und jede Modalitätspaare fusioniert. Dabei nutzen wir ein Bottleneck-Token-basiertes Gewichtungsverfahren, um wichtige gefusionierte Merkmale hervorzuheben. Darüber hinaus schlagen wir einen zeitlichen Konsistenzkontrastverlust vor, um die semantische Ausrichtung der gefusionierten Merkmalepaare sicherzustellen. Experimente mit dem größten XD-Violence-Datensatz zeigen, dass die vorgeschlagene Methode den aktuellen Stand der Technik erreicht. Der Quellcode ist unter https://github.com/shengyangsun/MSBT verfügbar.