MGFN: Magnitude-Contrastive Glance-and-Focus Network für weakly-supervised Video-Anomalieerkennung

Die schwach überwachte Erkennung von Anomalien in Überwachungsvideos ist eine herausfordernde Aufgabe. Im Gegensatz zu bestehenden Ansätzen, die eingeschränkte Fähigkeiten zur Lokalisierung von Anomalien in langen Videos aufweisen, schlagen wir ein neuartiges Glance-and-Focus-Netzwerk vor, das räumlich-zeitliche Informationen effektiv integriert, um eine präzise Anomalieerkennung zu ermöglichen. Zudem stellten wir empirisch fest, dass bestehende Ansätze, die Merkmalsgrößen zur Darstellung des Ausmaßes von Anomalien nutzen, typischerweise die Auswirkungen von Szenenvariationen ignorieren und daher aufgrund der Inkonstanz der Merkmalsgrößen über verschiedene Szenen hinweg suboptimal abschneiden. Um dieses Problem zu lösen, schlagen wir eine Feature-Amplification-Mechanismus sowie eine Magnitude-Contrastive-Loss vor, um die Unterscheidbarkeit der Merkmalsgrößen zur Erkennung von Anomalien zu verbessern. Experimentelle Ergebnisse auf zwei großen Benchmarks, UCF-Crime und XD-Violence, zeigen, dass unsere Methode state-of-the-art Ansätze übertrifft.