HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von schwach beschrifteter audiovisueller Gewaltdetektion im hyperbolischen Raum

Xiaogang Peng Hao Wen Yikai Luo Xiao Zhou Keyang Yu Ping Yang Zizhao Wu

Zusammenfassung

In den letzten Jahren hat die Aufgabe der schwach überwachten audio-visuellen Gewaltdetektion erhebliche Aufmerksamkeit erhalten. Ziel dieser Aufgabe ist die Identifizierung gewalttätiger Segmente innerhalb multimodaler Daten anhand von Video-Level-Labels. Trotz Fortschritten auf diesem Gebiet stoßen herkömmliche euklidische Neuronale Netzwerke, die in früheren Arbeiten eingesetzt wurden, auf Schwierigkeiten, hochdiskriminative Darstellungen zu erfassen, bedingt durch die Beschränkungen des Merkmalsraums. Um dies zu überwinden, stellen wir HyperVD vor, einen neuartigen Ansatz, der Snippet-Embeddings in hyperbolischem Raum lernt, um die Modelldiskriminierung zu verbessern. Unser Framework umfasst ein Detour-Fusion-Modul zur multimodalen Fusion, das die Modality-Inkonsistenz zwischen Audio- und visuellen Signalen effektiv verringert. Zudem tragen wir zwei Zweige vollständig hyperbolischer Graphen-Convolutional-Netzwerke bei, die Merkmalsähnlichkeiten und zeitliche Beziehungen zwischen Snippets im hyperbolischen Raum erschließen. Durch die Lernung von Snippet-Darstellungen in diesem Raum erfasst das Framework effektiv semantische Unterschiede zwischen gewalttätigen und normalen Ereignissen. Umfangreiche Experimente auf der XD-Violence-Benchmark zeigen, dass unsere Methode state-of-the-art-Methoden mit einer erheblichen Lücke übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen von schwach beschrifteter audiovisueller Gewaltdetektion im hyperbolischen Raum | Paper | HyperAI