Verbesserte Skelettvisualisierung für ansichtsinvariante menschliche Aktionserkennung
Die menschliche Aktenerkennung basierend auf Skelettdaten findet breite Anwendung in der Mensch-Computer-Interaktion und intelligenten Überwachung. Allerdings stellen Blickwinkelvariationen und verrauschte Daten erhebliche Herausforderungen für diese Aufgabe dar. Zudem bleibt die effektive Darstellung von raumzeitlichen Skelettsequenzen weiterhin eine offene Problematik. Um diese Herausforderungen in einem einzigen Ziel zu bewältigen, präsentiert dieser Artikel eine verbesserte Methode zur Skelettvisualisierung für eine blickwinkelunabhängige Aktenerkennung. Unser Ansatz gliedert sich in drei Stufen. Zunächst wird ein sequenzbasiertes, blickwinkelunabhängiges Transformationsverfahren entwickelt, das den Einfluss von Blickwinkelvariationen auf die raumzeitlichen Positionen der Skelettgelenke eliminiert. Im zweiten Schritt werden die transformierten Skelette als Folge von Farbbildern visualisiert, wodurch die raumzeitliche Information der Gelenke implizit codiert wird. Darüber hinaus werden visuelle und Bewegungsverstärkungsmethoden auf die Farbbilder angewendet, um deren lokale Muster zu verstärken. Im dritten Schritt wird ein auf Convolutional Neural Networks (CNN) basierendes Modell eingesetzt, um robuste und diskriminative Merkmale aus den Farbbildern zu extrahieren. Die endgültigen Aktionsklassen-Scores werden durch eine Entscheidungsebene-Fusion der tiefen Merkmale generiert. Umfassende Experimente an vier anspruchsvollen Datensätzen belegen konsistent die Überlegenheit unseres Ansatzes.