Multimodales, bewegungsbedingtes Diffusionsmodell für die skeletonbasierte Video-Anomalieerkennung

Anomalien sind selten, weshalb die Anomalieerkennung oft als One-Class-Classification (OCC) formuliert wird, d.h. ausschließlich an normalen Beispielen trainiert wird. Führende OCC-Techniken beschränken die latenten Darstellungen normaler Bewegungen auf begrenzte Volumina und erkennen alles außerhalb dieser als abnormal, was die „open-set“-Natur von Anomalien hinreichend berücksichtigt. Doch auch Normalität weist dieselbe „open-set“-Eigenschaft auf, da Menschen dieselbe Bewegung auf verschiedene Weisen ausführen können – ein Aspekt, den die derzeit führenden Techniken vernachlässigen. Wir schlagen ein neuartiges generatives Modell für die Video-Anomalieerkennung (VAD) vor, das annimmt, dass sowohl Normalität als auch Anomalität multimodal sind. Wir nutzen skelettbasierte Darstellungen und setzen moderne Diffusions-Wahrscheinlichkeitsmodelle ein, um multimodale zukünftige menschliche Pose zu generieren. Wir tragen einen neuartigen Ansatz zur Bedingung der vergangenen Bewegung bei und nutzen die verbesserten Fähigkeiten von Diffusionsprozessen zur Abdeckung verschiedener Modi, um unterschiedliche, aber plausibele zukünftige Bewegungen zu erzeugen. Auf Basis der statistischen Aggregation der zukünftigen Modi wird eine Anomalie erkannt, wenn die generierten Bewegungsmuster nicht mit der tatsächlichen Zukunft übereinstimmen. Wir validieren unser Modell an vier etablierten Benchmarks: UBnormal, HR-UBnormal, HR-STC und HR-Avenue, wobei umfangreiche Experimente Ergebnisse erzielen, die die derzeit beste Leistung übertreffen.