Objektzentrierte Auto-Encoder und Dummy-Anomalien zur Detektion von abnormen Ereignissen in Videos

Die Erkennung von abnormen Ereignissen in Videos ist ein anspruchsvolles Problem der Bildverarbeitung. Die meisten existierenden Ansätze formulieren die Erkennung abnormer Ereignisse als eine Aufgabe zur Ausreißererkennung, aufgrund der Knappheit anomaler Daten während des Trainings. Aufgrund des Mangels an Vorinformationen zu abnormen Ereignissen sind diese Methoden nicht vollständig ausgestattet, um zwischen normalen und abnormen Ereignissen zu differenzieren. In dieser Arbeit formalisieren wir die Erkennung abnormer Ereignisse als ein binäres Klassifikationsproblem von einem gegen alle (one-versus-rest). Unser Beitrag gliedert sich in zwei Teile. Erstens führen wir einen unüberwachten Merkmalslernrahmen basierend auf objektorientierten Faltungs-Autoencodern ein, um sowohl Bewegungs- als auch Erscheinungsmerkmale zu kodieren. Zweitens schlagen wir einen überwachten Klassifikationsansatz vor, der darauf beruht, die Trainingsbeispiele in Normalitätscluster zu gruppieren. Anschließend wird ein Klassifikator für das Problem eines gegen alle (one-versus-rest) eingesetzt, um jeden Normalitätscluster vom Rest zu trennen. Für das Training des Klassifikators dienen die anderen Cluster als fiktive Anomalien. Während der Inferenz wird ein Objekt als abnormal gekennzeichnet, wenn der höchste Klassifizierungswert, der durch die Klassifikatoren eines gegen alle (one-versus-rest) vergeben wird, negativ ist. Umfassende Experimente wurden an vier Benchmarks durchgeführt: Avenue, ShanghaiTech, UCSD und UMN. Unser Ansatz liefert überlegenere Ergebnisse auf allen vier Datensätzen. Auf dem groß angelegten ShanghaiTech-Datensatz erreicht unsere Methode einen absoluten Gewinn von 8,4 % im Bezug auf den framebasierten AUC im Vergleich zur Stand-of-the-Art-Methode [Sultani et al., CVPR 2018].