HyperAIHyperAI
vor 13 Tagen

Tensor-Präsentationen für die Aktionserkennung

Piotr Koniusz, Lei Wang, Anoop Cherian
Tensor-Präsentationen für die Aktionserkennung
Abstract

Menschliche Handlungen in Videosequenzen zeichnen sich durch die komplexe Wechselwirkung zwischen räumlichen Merkmalen und deren zeitlicher Dynamik aus. In diesem Artikel stellen wir neuartige Tensorrepräsentationen vor, die es ermöglichen, solche höherordentlichen Beziehungen zwischen visuellen Merkmalen kompakt zu erfassen, im Rahmen der Aktionserkennung. Wir schlagen zwei tensorbasierte Merkmalsrepräsentationen vor, nämlich (i) den Sequenz-Kompatibilitätskern (Sequence Compatibility Kernel, SCK) und (ii) den Dynamik-Kompatibilitätskern (Dynamics Compatibility Kernel, DCK). Der SCK beruht auf den spatio-temporalen Korrelationen zwischen Merkmalen, während der DCK die Aktionsdynamik einer Sequenz explizit modelliert. Darüber hinaus untersuchen wir eine Verallgemeinerung des SCK, den sogenannten SCK(+), der auf Teilsequenzen operiert und somit das lokale-global-Verhältnis von Korrelationen erfassen kann; dieser Ansatz ermöglicht zudem die Integration multimodaler Eingaben, beispielsweise 3D-Gelenkkoordinaten aus Skelettmodellen sowie pro-Rahmen-Klassifikator-Scores, die aus tiefen Lernmodellen gewonnen wurden, die auf Videos trainiert wurden. Wir führen eine Linearisierung dieser Kerne ein, die zu kompakten und schnellen Beschreibern führt. Wir präsentieren Experimente an (i) 3D-Skelett-Aktionssequenzen, (ii) feinkörnigen Videosequenzen und (iii) standardmäßigen, nicht-feinkörnigen Videos. Da unsere endgültigen Repräsentationen Tensoren sind, die höherordentliche Beziehungen von Merkmalen erfassen, stehen sie im Zusammenhang mit Ko-Occurrenzen für eine robuste feinkörnige Erkennung. Durch die Verwendung höherer Tensoren und sogenannter Eigenwert-Power-Normalisierung (Eigenvalue Power Normalization, EPN), die lange als geeignet für die spektrale Detektion höherordentlicher Erscheinungen angesehen wurden, gelingt es uns, feinkörnige Merkmalsbeziehungen zu erkennen, anstatt lediglich die Häufigkeit von Merkmalen in Aktionssequenzen zu zählen. Wir beweisen, dass ein Tensor der Ordnung r, der aus Z-dimensionalen Merkmalen konstruiert wird und zusammen mit EPN verwendet wird, tatsächlich detektiert, ob mindestens ein höherordentlicher Vorkommenswert „projiziert“ in eine der binom(Z, r) Unterräume der Dimension r eingebettet ist, die durch den Tensor repräsentiert werden – wodurch ein Tensor-Power-Normalisierungs-Maß entsteht, das mit binom(Z*, r) solcher „Detektoren“ ausgestattet ist.