Lernen einer Abstandsfunction mit einem Siamese-Netzwerk zur Lokalisierung von Anomalien in Videos

Diese Arbeit stellt einen neuen Ansatz zur Lokalisierung von Anomalien in Überwachungsvideos vor. Der zentrale Innovationsgehalt liegt in der Idee, ein Siameses convolutionales neuronales Netzwerk (CNN) dazu zu verwenden, eine Distanzfunktion zwischen Paaren von Videobildausschnitten (raumzeitliche Regionen im Video) zu lernen. Die gelernte Distanzfunktion, die nicht spezifisch für das Zielvideo ist, wird verwendet, um die Distanz zwischen jedem Videobildausschnitt im Testvideo und den im normalen Trainingsvideo gefundenen Bildausschnitten zu messen. Falls ein Testbildausschnitt keinem normalen Bildausschnitt ähnlich ist, muss er anomalous sein. Wir vergleichen unseren Ansatz mit bereits veröffentlichten Algorithmen anhand von vier Evaluationsmaßen und drei anspruchsvollen Benchmark-Datensätzen für die Zielanwendung. Experimente zeigen, dass unser Ansatz entweder die derzeitigen Stand-of-the-Art-Methoden übertreffen oder zumindest vergleichbare Ergebnisse erzielen kann.