HyperAIHyperAI
vor 16 Tagen

Lernverfahren für menschliche Interaktionen auf 3D-Skelett-Punktwolken zur Video-Gewalt-Erkennung

{Qingyao Wu, Yukun Su, Jinhui Zhu, Guosheng Lin}
Lernverfahren für menschliche Interaktionen auf 3D-Skelett-Punktwolken zur Video-Gewalt-Erkennung
Abstract

Diese Arbeit stellt eine neue Methode zur Erkennung gewalttätigen Verhaltens vor, die kontextuelle Beziehungen zwischen beteiligten Personen aus menschlichen Skelett-Punkten lernt. Im Gegensatz zu vorherigen Ansätzen formulieren wir zunächst 3D-Skelett-Punktwolken aus menschlichen Skelett-Sequenzen, die aus Videos extrahiert wurden, und führen anschließend eine Interaktionslernung auf diesen 3D-Skelett-Punktwolken durch. Es wird ein neuartiger extbf{S}keleton extbf{P}oints extbf{I}nteraction extbf{L}earning (SPIL)-Modul vorgeschlagen, um die Wechselwirkungen zwischen Skelett-Punkten zu modellieren. Konkret zielt SPIL durch die Einführung einer spezifischen Gewichtsverteilungsstrategie zwischen lokalen Regionspunkten darauf ab, gezielt die relevantesten Teile basierend auf ihren Merkmalen und ihrer räumlich-zeitlichen Position zu fokussieren. Um unterschiedliche Arten von Beziehungsinformationen erfassen zu können, wird ein Multi-Head-Mechanismus entworfen, der verschiedene Merkmale aus unabhängigen Head-Modulen aggregiert, um gemeinsam verschiedene Arten von Beziehungen zwischen den Punkten zu verarbeiten. Experimentelle Ergebnisse zeigen, dass unser Modell bestehende Netzwerke übertrifft und eine neue state-of-the-art-Leistung auf Video-Gewalt-Datensätzen erzielt.