Reguläritätslernen durch explizite Verteilungsmodellierung für die Anomalieerkennung in skelettbasierten Videosequenzen

Die Anomalieerkennung in Überwachungsvideos ist herausfordernd und von entscheidender Bedeutung für die Gewährleistung der öffentlichen Sicherheit. Im Gegensatz zu pixelbasierten Methoden zur Anomalieerkennung nutzen posebasierte Ansätze hochstrukturierte Skelett-Daten, wodurch der Rechenaufwand reduziert und der negativen Wirkung von Hintergrundrauschen entgegengewirkt wird. Allerdings leiden posebasierte Methoden im Gegensatz zu pixelbasierten Ansätzen, die explizite Bewegungsmerkmale wie Optische Fluss direkt nutzen können, unter dem Fehlen alternativer dynamischer Darstellungen. In diesem Artikel wird ein neuartiger Motion Embedder (ME) vorgestellt, der eine Darstellung der Pose-Bewegung aus der Perspektive von Wahrscheinlichkeiten bereitstellt. Zudem wird ein neuartiger, auf die Aufgabe zugeschnittener Spatial-Temporal Transformer (STT) eingesetzt, um selbstüberwachtes Rekonstruieren von Pose-Sequenzen zu ermöglichen. Diese beiden Module werden anschließend in einem einheitlichen Rahmenwerk zur Lernung der Pose-Regularität integriert, das als Motion Prior Regularity Learner (MoPRL) bezeichnet wird. MoPRL erreicht mit einer durchschnittlichen Verbesserung von 4,7 % AUC auf mehreren anspruchsvollen Datensätzen die derzeit beste Leistung. Umfangreiche Experimente bestätigen die Vielseitigkeit jedes vorgeschlagenen Moduls.