Context Recovery und Wissensabfrage: Ein neuartiges Zweistrom-Frame-work für die Video-Anomalieerkennung

Die Video-Anomalieerkennung zielt darauf ab, Ereignisse in Videos zu identifizieren, die vom erwarteten Verhalten abweichen. Die gängigen Methoden detektieren Anomalien hauptsächlich anhand der Rekonstruktionsfehler von Videoclips oder der Vorhersagefehler zukünftiger Frames. Allerdings hängt dieser Fehler stark vom lokalen Kontext des aktuellen Clips ab und verfügt über kein tiefes Verständnis von Normalität. Um dieses Problem zu lösen, schlagen wir vor, Anomalien nicht nur anhand des lokalen Kontexts, sondern auch anhand der Konsistenz zwischen dem getesteten Ereignis und dem Wissen über Normalität aus den Trainingsdaten zu erkennen. Konkret stellen wir einen neuartigen zweistromigen Ansatz basierend auf Kontextrekonstruktion und Wissensretrieval vor, wobei die beiden Ströme sich gegenseitig ergänzen. Für den Kontextrekonstruktionsstrom entwickeln wir ein räumlich-zeitliches U-Net, das die Bewegungsinformationen vollständig ausnutzen kann, um zukünftige Frames vorherzusagen. Darüber hinaus führen wir eine Maximum-Local-Error-Mechanismus ein, um das Problem großer Rekonstruktionsfehler durch komplexe Vordergrundobjekte zu verringern. Für den Wissensretrieval-Strang entwickeln wir eine verbesserte lernbare, lokalitäts-sensible Hashing-Methode, die die Hash-Funktionen mittels eines Siamese-Netzwerks und eines gegenseitigen Differenzverlustes optimiert. Das Wissen über Normalität wird in Hash-Tabellen kodiert und gespeichert, und der Abstand zwischen dem getesteten Ereignis und der Wissensrepräsentation dient zur Abschätzung der Anomaliewahrscheinlichkeit. Schließlich fassen wir die Anomalie-Scores beider Ströme zusammen, um Anomalien zu detektieren. Umfangreiche Experimente belegen die Wirksamkeit und die Ergänzungsfähigkeit der beiden Ströme, wobei der vorgeschlagene zweistromige Ansatz auf vier Datensätzen die bisher beste Leistung erzielt.