RPAN: Ein end-to-end rekurrentes Pose-Attention-Netzwerk für die Aktionserkennung in Videos
Neuere Studien belegen die Wirksamkeit von rekurrenten neuronalen Netzen (RNNs) für die Aktionserkennung in Videos. Allerdings nutzen bisherige Arbeiten hauptsächlich Kategorien auf Videoebene als Supervision zur Trainingsphase von RNNs, was die Fähigkeit der RNNs einschränken kann, komplexe Bewegungsstrukturen über die Zeit hinweg zu lernen. In diesem Artikel stellen wir ein rekurrentes Pose-Attention-Netzwerk (RPAN) vor, um diese Herausforderung anzugehen, wobei wir eine neuartige Pose-Attention-Mechanismus einführen, um adaptiv posebezogene Merkmale zu lernen, die bei jeder Zeitstufe der Aktionsvorhersage von RNNs genutzt werden. Genauer gesagt, leisten wir drei Hauptbeiträge in diesem Artikel. Erstens unterscheidet sich unser RPAN im Gegensatz zu früheren Arbeiten zur posebasierten Aktionserkennung durch eine end-to-end rekurrente Architektur, die es ermöglicht, wichtige räumlich-zeitliche Entwicklungen der menschlichen Pose in einem einheitlichen Rahmen zur Unterstützung der Aktionserkennung auszunutzen. Zweitens lernt unser Pose-Attention-Mechanismus anstelle der separaten Auswertung einzelner Gelenkmerkmale robuste menschliche Körperteilmerkmale, indem er Aufmerksamkeitsparameter teilweise auf semantisch verwandte menschliche Gelenke gemeinsam nutzt. Diese menschlichen Körperteilmerkmale werden anschließend in eine Körperteil-Pooling-Schicht eingespeist, um eine hochdiskriminierende, posebasierte Repräsentation für die zeitliche Aktionsmodellierung zu konstruieren. Drittens stellt eine wichtige Nebenwirkung unseres RPAN die Pose-Schätzung in Videos dar, die zur groben Annotation von Posen in Aktionsvideos genutzt werden kann. Wir evaluieren das vorgeschlagene RPAN quantitativ und qualitativ auf zwei etablierten Benchmarks, nämlich Sub-JHMDB und PennAction. Die experimentellen Ergebnisse zeigen, dass RPAN die jüngsten state-of-the-art-Methoden auf diesen anspruchsvollen Datensätzen übertrifft.