HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

RPAN: Ein end-to-end rekurrentes Pose-Attention-Netzwerk für die Aktionserkennung in Videos

{Yu Qiao Yali Wang Wenbin Du}

Abstract

Neuere Studien belegen die Wirksamkeit von rekurrenten neuronalen Netzen (RNNs) für die Aktionserkennung in Videos. Allerdings nutzen bisherige Arbeiten hauptsächlich Kategorien auf Videoebene als Supervision zur Trainingsphase von RNNs, was die Fähigkeit der RNNs einschränken kann, komplexe Bewegungsstrukturen über die Zeit hinweg zu lernen. In diesem Artikel stellen wir ein rekurrentes Pose-Attention-Netzwerk (RPAN) vor, um diese Herausforderung anzugehen, wobei wir eine neuartige Pose-Attention-Mechanismus einführen, um adaptiv posebezogene Merkmale zu lernen, die bei jeder Zeitstufe der Aktionsvorhersage von RNNs genutzt werden. Genauer gesagt, leisten wir drei Hauptbeiträge in diesem Artikel. Erstens unterscheidet sich unser RPAN im Gegensatz zu früheren Arbeiten zur posebasierten Aktionserkennung durch eine end-to-end rekurrente Architektur, die es ermöglicht, wichtige räumlich-zeitliche Entwicklungen der menschlichen Pose in einem einheitlichen Rahmen zur Unterstützung der Aktionserkennung auszunutzen. Zweitens lernt unser Pose-Attention-Mechanismus anstelle der separaten Auswertung einzelner Gelenkmerkmale robuste menschliche Körperteilmerkmale, indem er Aufmerksamkeitsparameter teilweise auf semantisch verwandte menschliche Gelenke gemeinsam nutzt. Diese menschlichen Körperteilmerkmale werden anschließend in eine Körperteil-Pooling-Schicht eingespeist, um eine hochdiskriminierende, posebasierte Repräsentation für die zeitliche Aktionsmodellierung zu konstruieren. Drittens stellt eine wichtige Nebenwirkung unseres RPAN die Pose-Schätzung in Videos dar, die zur groben Annotation von Posen in Aktionsvideos genutzt werden kann. Wir evaluieren das vorgeschlagene RPAN quantitativ und qualitativ auf zwei etablierten Benchmarks, nämlich Sub-JHMDB und PennAction. Die experimentellen Ergebnisse zeigen, dass RPAN die jüngsten state-of-the-art-Methoden auf diesen anspruchsvollen Datensätzen übertrifft.

Benchmarks

BenchmarkMethodikMetriken
skeleton-based-action-recognition-on-j-hmdbRPAN
Accuracy (RGB+pose): 83.9

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RPAN: Ein end-to-end rekurrentes Pose-Attention-Netzwerk für die Aktionserkennung in Videos | Forschungsarbeiten | HyperAI