STemGAN: spatio-temporäres generatives adversariales Netzwerk zur Video-Anomalieerkennung
Die automatische Erkennung und Interpretation von Abweichungen hat in großskaligen Videoüberwachungssystemen eine entscheidende Bedeutung erlangt. Die Herausforderungen ergeben sich aus der fehlenden klaren Definition von Abweichungen, was die Anwendung überwachter Methoden einschränkt. Um dies zu adressieren, stellen wir eine neuartige unsupervisierte Anomalieerkennungsmethode vor: das Spatio-Temporale Generative Adversarial Network (STemGAN). Dieses Framework besteht aus einem Generator und einem Diskriminator, die aus dem Video-Kontext lernen und sowohl räumliche als auch zeitliche Informationen nutzen, um zukünftige Frames vorherzusagen. Der Generator folgt einer Autoencoder-(AE)-Architektur mit einem dualen Encoder zur Extraktion von Erscheinungs- und Bewegungsinformationen sowie einem Decoder mit einem Channel Attention-(CA)-Modul, das sich auf dynamische Vordergrundmerkmale konzentriert. Zudem präsentieren wir eine Transfer-Learning-Methode, die die Generalisierbarkeit von STemGAN verbessert. Wir bewerten die Leistung unseres Ansatzes anhand etablierter Anomalieerkennungs-(AD)-Datensätze und vergleichen sie mit bestehenden State-of-the-Art-Verfahren unter Verwendung gängiger Evaluationsmetriken, nämlich AUC (Area Under Curve) und EER (Equal Error Rate). Die empirischen Ergebnisse zeigen, dass unser vorgeschlagenes STemGAN die bestehenden State-of-the-Art-Methoden übertrifft und AUC-Werte von 97,5 % auf UCSDPed2, 86,0 % auf CUHK Avenue, 90,4 % auf Subway-entrance und 95,2 % auf Subway-exit erreicht.