Anomalieerkennung in Videosequenzen mit Erscheinungsform-Bewegungskorrespondenz

Die Anomalieerkennung in Überwachungsvideos stellt derzeit eine Herausforderung dar aufgrund der Vielfalt möglicher Ereignisse. Wir schlagen ein tiefes Faltungsneuronales Netzwerk (CNN) vor, das dieses Problem durch das Lernen einer Korrespondenz zwischen üblichen Objektanblicken (z.B. Fußgänger, Hintergrund, Baum usw.) und deren zugehörigen Bewegungen löst. Unser Modell ist als Kombination eines Rekonstruktionsnetzwerks und eines Bildübersetzungsmodells konzipiert, die denselben Encoder teilen. Das erste Unter-Netzwerk bestimmt die bedeutsamsten Strukturen, die in Videobildern auftreten, während das zweite versucht, Bewegungsmuster diesen Strukturen zuzuordnen. Die Trainingsphase wird ausschließlich mit Videos von normalen Ereignissen durchgeführt, wodurch das Modell anschließend in der Lage ist, Frame-basierte Scores für unbekannte Eingaben zu berechnen. Die Experimente mit sechs Benchmark-Datensätzen zeigen die wettbewerbsfähige Leistung des vorgeschlagenen Ansatzes im Vergleich zu den besten bisher bekannten Methoden.