Zukunftsbildvorhersage für Anomalieerkennung -- Eine neue Baseline

Die Anomalieerkennung in Videos bezieht sich auf die Identifizierung von Ereignissen, die nicht dem erwarteten Verhalten entsprechen. Fast alle existierenden Methoden lösen das Problem, indem sie die Rekonstruktionsfehler der Trainingsdaten minimieren, was jedoch nicht garantieren kann, dass ein abnormes Ereignis einen größeren Rekonstruktionsfehler aufweist. In dieser Arbeit schlagen wir vor, das Problem der Anomalieerkennung innerhalb eines Video-Vorhersage-Rahmenwerks anzugehen. Nach bestem Wissen ist dies die erste Arbeit, die den Unterschied zwischen einem vorhergesagten zukünftigen Frame und dessen Ground Truth zur Erkennung eines abnormen Ereignisses nutzt. Um für normale Ereignisse eine zukünftige Frame mit höherer Qualität zuvorhersagen, führen wir neben den üblichen Erscheinungsform- (räumlichen) Einschränkungen an Intensität und Gradient auch eine Bewegungs- (zeitliche) Einschränkung in die Video-Vorhersage ein, indem wir die optische Flusskonsistenz zwischen vorhergesagten Frames und Ground-Truth-Frames erzwingen. Dies ist die erste Arbeit, die eine zeitliche Einschränkung in die Aufgabe der Video-Vorhersage einführt. Solche räumliche und Bewegungs-Einschränkungen erleichtern die Vorhersage zukünftiger Frames für normale Ereignisse und ermöglichen somit effektiver die Identifizierung von abnormen Ereignissen, die nicht den Erwartungen entsprechen. Ausführliche Experimente sowohl auf einem Toy-Datensatz als auch auf einigen öffentlich zugänglichen Datensätzen bestätigen die Effektivität unserer Methode hinsichtlich der Robustheit gegenüber Unsicherheiten bei normalen Ereignissen und der Sensitivität gegenüber abnormen Ereignissen.