Abnormale Ereigniserkennung in Videos mit Hilfe von räumlich-zeitlichen Autoencodern

Wir präsentieren eine effiziente Methode zur Erkennung von Anomalien in Videos. Neuere Anwendungen von Faltungsneuronalen Netzen (Convolutional Neural Networks) haben gezeigt, dass Faltungsschichten für die Objekterkennung und -klassifizierung, insbesondere in Bildern, vielversprechend sind. Allerdings sind Faltungsneuronale Netze überwacht und erfordern Labels als Lernsignale. Wir schlagen eine räumlich-zeitliche Architektur für die Anomalieerkennung in Videos vor, einschließlich dicht besetzten Szenen. Unsere Architektur umfasst zwei Hauptkomponenten: Eine für die räumliche Merkmalsrepräsentation und eine für das Lernen der zeitlichen Entwicklung der räumlichen Merkmale. Experimentelle Ergebnisse auf den Benchmarks Avenue, Subway und UCSD bestätigen, dass die Erkennungsgenauigkeit unserer Methode mit den neuesten Verfahren vergleichbar ist und dabei eine beachtliche Geschwindigkeit von bis zu 140 fps erreicht.