Kreuzmodale Fusion und Aufmerksamkeitsmechanismus für schwach überwachte Videoanomaliedetektion

Kürzlich ist die schwach überwachte Videoanomalieerkennung (WS-VAD) als eine moderne Forschungsrichtung hervorgetreten, um Anomalieereignisse wie Gewalt und Nackedei in Videos mithilfe nur von videobasierten Labels zu identifizieren. Dieses Aufgabenfeld birgt jedoch erhebliche Herausforderungen, darunter das Bewältigen von unbalancierten Modalitätsinformationen und die konsistente Unterscheidung zwischen normalen und abnormen Merkmalen. In dieser Arbeit adressieren wir diese Herausforderungen und schlagen ein multimodales WS-VAD-Framework vor, um Anomalien wie Gewalt und Nackedei präzise zu erkennen. Im Rahmen des vorgeschlagenen Frameworks führen wir einen neuen Fusionsmechanismus ein, bekannt als der Cross-modal Fusion Adapter (CFA), der hoch relevante audiovisuelle Merkmale im Verhältnis zur visuellen Modalität dynamisch auswählt und verbessert. Zudem stellen wir den Hyperbolischen Lorentz'schen Graph-Attention-Mechanismus (HLGAtt) vor, der die hierarchischen Beziehungen zwischen normalen und abnormen Repräsentationen effektiv erfasst, wodurch die Genauigkeit der Merkmalsseparation gesteigert wird. Durch umfangreiche Experimente zeigen wir, dass das vorgeschlagene Modell auf Benchmark-Datensätzen für Gewalt- und Nackedeierkennung standesüberragende Ergebnisse erzielt.