Normalizing Flows für die Anomalieerkennung von menschlichen Posen

Die Videoanomalieerkennung ist ein schlecht gestelltes Problem, da sie auf vielen Parametern wie Erscheinungsbild, Pose, Kamerawinkel, Hintergrund und weiteren Faktoren basiert. Wir reduzieren das Problem auf die Anomalieerkennung von menschlichen Posen, was das Risiko minimiert, dass störende Parameter wie das Erscheinungsbild die Ergebnisse beeinflussen. Der Fokus auf die Pose allein hat auch den Nebeneffekt, dass der Bias gegenüber ausgeprägten Minderheitengruppen verringert wird. Unser Modell arbeitet direkt mit Sequenzen von menschlichen Posen in Form von Graphen und ist außergewöhnlich leichtgewichtig (ca. 1000 Parameter) und kann auf jedem Gerät laufen, das die Poseestimation ausführen kann, ohne nennenswerte zusätzliche Ressourcen zu benötigen. Wir nutzen eine hochkompakte Posenrepräsentation innerhalb eines Normalizing Flows Frameworks, das wir erweitern, um die einzigartigen Merkmale von räumlich-zeitlichen Posen Daten zu bewältigen und dessen Vorteile in diesem Anwendungsfall zeigen. Der Algorithmus ist sehr allgemein und kann sowohl mit Trainingsdaten nur aus normalen Beispielen als auch in einem überwachten Szenario mit etikettierten normalen und anomalen Beispielen umgehen. Wir berichten über Stand-of-the-Art-Ergebnisse auf zwei Anomalieerkennungsbenchmarks – dem unüberwachten ShanghaiTech-Datensatz und dem jüngst veröffentlichten überwachten UBnormal-Datensatz.