Graphbasierte Pose-Clustering für die Anomalieerkennung

Wir stellen eine neue Methode zur Anomalieerkennung menschlicher Aktionen vor. Unser Ansatz arbeitet direkt auf menschlichen Gelenkgraphen, die aus einer Eingabevideosequenz berechnet werden können. Dadurch wird die Analyse unabhängig von störenden Parametern wie Blickwinkel oder Beleuchtung. Wir projizieren diese Graphen in einen latente Raum und clustern sie. Jede Aktion wird anschließend durch ihre weiche Zuordnung zu den einzelnen Clustern repräsentiert. Dies führt zu einer Art „Bag-of-Words“-Darstellung der Daten, bei der jede Aktion durch ihre Ähnlichkeit zu einer Gruppe grundlegender Aktionen („Aktionswörter“) beschrieben wird. Anschließend verwenden wir ein auf einem Dirichlet-Prozess basierendes Mischmodell, das sich besonders gut für die Verarbeitung proportionaler Daten – wie unsere weichen Zuordnungsvektoren – eignet – um zu bestimmen, ob eine Aktion normal oder anomal ist.Wir evaluieren unsere Methode an zwei Arten von Datensätzen. Der erste betrifft feinkörnige Anomalieerkennung (z. B. ShanghaiTech), bei dem ungewöhnliche Variationen bestimmter Aktionen erkannt werden sollen. Der zweite betrifft grobkörnige Anomalieerkennung (z. B. auf Basis des Kinetics-Datensatzes), bei dem nur wenige Aktionen als normal gelten, während alle anderen als anomal angesehen werden sollten.Ausführliche Experimente an etablierten Benchmarks zeigen, dass unsere Methode im Vergleich zu anderen state-of-the-art-Verfahren erheblich bessere Ergebnisse erzielt.