Kontrastiv-Regularisierter U-Net für die Video-Anomalieerkennung
Die Video-Anomalieerkennung zielt darauf ab, anormale Segmente in Videos zu identifizieren. Sie wird typischerweise mit schwach beschrifteten, videobasierten Labels trainiert. Diese Arbeit konzentriert sich auf zwei entscheidende Faktoren, die die Leistung von Modellen zur Video-Anomalieerkennung beeinflussen. Erstens untersuchen wir, wie lokale und globale zeitliche Abhängigkeiten effektiver erfasst werden können. Bisherige Architekturen sind entweder gut darin, lokale oder globale Informationen zu erfassen, jedoch nicht beide gleichzeitig. Wir schlagen vor, eine U-Net-ähnliche Struktur zu verwenden, um beide Arten von Abhängigkeiten in einer einheitlichen Architektur zu modellieren, wobei der Encoder hierarchisch globale Abhängigkeiten auf Basis lokaler Informationen lernt; anschließend überträgt der Decoder diese globale Information zurück auf die Segmentebene zur Klassifikation. Zweitens stellt Überanpassung aufgrund begrenzter Trainingsdaten ein nicht-triviales Problem dar. Wir schlagen eine schwach überwachte kontrastive Regularisierung vor, die einen featurebasierten Ansatz verfolgt, um das Netzwerk zu regularisieren. Die kontrastive Regularisierung lernt allgemeiner verwendbare Merkmale, indem sie die Trennbarkeit zwischen Klassen und die Kompaktheit innerhalb von Klassen fördert. Umfangreiche Experimente auf dem UCF-Crime-Datensatz zeigen, dass unser Ansatz mehrere state-of-the-art-Methoden übertrifft.