HyperAIHyperAI

Command Palette

Search for a command to run...

Tensor-Präsentationen für die Aktionserkennung

Piotr Koniusz Lei Wang Anoop Cherian

Zusammenfassung

Menschliche Handlungen in Videosequenzen zeichnen sich durch die komplexe Wechselwirkung zwischen räumlichen Merkmalen und deren zeitlicher Dynamik aus. In diesem Artikel stellen wir neuartige Tensorrepräsentationen vor, die es ermöglichen, solche höherordentlichen Beziehungen zwischen visuellen Merkmalen kompakt zu erfassen, im Rahmen der Aktionserkennung. Wir schlagen zwei tensorbasierte Merkmalsrepräsentationen vor, nämlich (i) den Sequenz-Kompatibilitätskern (Sequence Compatibility Kernel, SCK) und (ii) den Dynamik-Kompatibilitätskern (Dynamics Compatibility Kernel, DCK). Der SCK beruht auf den spatio-temporalen Korrelationen zwischen Merkmalen, während der DCK die Aktionsdynamik einer Sequenz explizit modelliert. Darüber hinaus untersuchen wir eine Verallgemeinerung des SCK, den sogenannten SCK(+), der auf Teilsequenzen operiert und somit das lokale-global-Verhältnis von Korrelationen erfassen kann; dieser Ansatz ermöglicht zudem die Integration multimodaler Eingaben, beispielsweise 3D-Gelenkkoordinaten aus Skelettmodellen sowie pro-Rahmen-Klassifikator-Scores, die aus tiefen Lernmodellen gewonnen wurden, die auf Videos trainiert wurden. Wir führen eine Linearisierung dieser Kerne ein, die zu kompakten und schnellen Beschreibern führt. Wir präsentieren Experimente an (i) 3D-Skelett-Aktionssequenzen, (ii) feinkörnigen Videosequenzen und (iii) standardmäßigen, nicht-feinkörnigen Videos. Da unsere endgültigen Repräsentationen Tensoren sind, die höherordentliche Beziehungen von Merkmalen erfassen, stehen sie im Zusammenhang mit Ko-Occurrenzen für eine robuste feinkörnige Erkennung. Durch die Verwendung höherer Tensoren und sogenannter Eigenwert-Power-Normalisierung (Eigenvalue Power Normalization, EPN), die lange als geeignet für die spektrale Detektion höherordentlicher Erscheinungen angesehen wurden, gelingt es uns, feinkörnige Merkmalsbeziehungen zu erkennen, anstatt lediglich die Häufigkeit von Merkmalen in Aktionssequenzen zu zählen. Wir beweisen, dass ein Tensor der Ordnung r, der aus Z-dimensionalen Merkmalen konstruiert wird und zusammen mit EPN verwendet wird, tatsächlich detektiert, ob mindestens ein höherordentlicher Vorkommenswert „projiziert“ in eine der binom(Z, r) Unterräume der Dimension r eingebettet ist, die durch den Tensor repräsentiert werden – wodurch ein Tensor-Power-Normalisierungs-Maß entsteht, das mit binom(Z*, r) solcher „Detektoren“ ausgestattet ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Tensor-Präsentationen für die Aktionserkennung | Paper | HyperAI