HyperAIHyperAI

Command Palette

Search for a command to run...

PA3D: Pose-Action 3D Machine für die Videoerkennung

Yu Qiao Zhifeng Li Yali Wang An Yan

Zusammenfassung

Kürzliche Studien haben den Erfolg der Anwendung von 3D-CNNs für die Aktionserkennung in Videos dokumentiert. Allerdings basieren die meisten 3D-Modelle auf RGB- und Optikfluss-Streams, die möglicherweise die Pose-Dynamik – eine wichtige Informationsquelle zur Modellierung menschlicher Aktionen – nicht vollständig ausnutzen. Um diese Lücke zu schließen, schlagen wir eine kompakte Pose-Action 3D-Maschine (PA3D) vor, die mehrere Pose-Modalitäten effizient innerhalb eines einheitlichen 3D-Frameworks kodieren kann und somit spatio-temporale Pose-Repräsentationen für die Aktionserkennung lernt. Genauer gesagt führen wir eine neuartige zeitliche Pose-Konvolution ein, die räumliche Poses über Frames aggregiert. Im Gegensatz zur klassischen zeitlichen Konvolution kann unsere Operation die Pose-Bewegungen explizit lernen, die für die Erkennung menschlicher Aktionen diskriminativ sind. Umfangreiche Experimente an drei etablierten Benchmarks (JHMDB, HMDB und Charades) zeigen, dass PA3D die jüngsten posebasierten Ansätze übertrifft. Zudem ist PA3D hochkomplementär zu aktuellen 3D-CNNs, beispielsweise I3D. Die Mehrstrahl-Fusion erreicht auf allen untersuchten Datensätzen die bisher beste Leistung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PA3D: Pose-Action 3D Machine für die Videoerkennung | Paper | HyperAI