Lernen von schwach beschrifteter audiovisueller Gewaltdetektion im hyperbolischen Raum

In den letzten Jahren hat die Aufgabe der schwach überwachten audio-visuellen Gewaltdetektion erhebliche Aufmerksamkeit erhalten. Ziel dieser Aufgabe ist die Identifizierung gewalttätiger Segmente innerhalb multimodaler Daten anhand von Video-Level-Labels. Trotz Fortschritten auf diesem Gebiet stoßen herkömmliche euklidische Neuronale Netzwerke, die in früheren Arbeiten eingesetzt wurden, auf Schwierigkeiten, hochdiskriminative Darstellungen zu erfassen, bedingt durch die Beschränkungen des Merkmalsraums. Um dies zu überwinden, stellen wir HyperVD vor, einen neuartigen Ansatz, der Snippet-Embeddings in hyperbolischem Raum lernt, um die Modelldiskriminierung zu verbessern. Unser Framework umfasst ein Detour-Fusion-Modul zur multimodalen Fusion, das die Modality-Inkonsistenz zwischen Audio- und visuellen Signalen effektiv verringert. Zudem tragen wir zwei Zweige vollständig hyperbolischer Graphen-Convolutional-Netzwerke bei, die Merkmalsähnlichkeiten und zeitliche Beziehungen zwischen Snippets im hyperbolischen Raum erschließen. Durch die Lernung von Snippet-Darstellungen in diesem Raum erfasst das Framework effektiv semantische Unterschiede zwischen gewalttätigen und normalen Ereignissen. Umfangreiche Experimente auf der XD-Violence-Benchmark zeigen, dass unsere Methode state-of-the-art-Methoden mit einer erheblichen Lücke übertrifft.