PA3D: Pose-Action 3D Machine für die Videoerkennung

Kürzliche Studien haben den Erfolg der Anwendung von 3D-CNNs für die Aktionserkennung in Videos dokumentiert. Allerdings basieren die meisten 3D-Modelle auf RGB- und Optikfluss-Streams, die möglicherweise die Pose-Dynamik – eine wichtige Informationsquelle zur Modellierung menschlicher Aktionen – nicht vollständig ausnutzen. Um diese Lücke zu schließen, schlagen wir eine kompakte Pose-Action 3D-Maschine (PA3D) vor, die mehrere Pose-Modalitäten effizient innerhalb eines einheitlichen 3D-Frameworks kodieren kann und somit spatio-temporale Pose-Repräsentationen für die Aktionserkennung lernt. Genauer gesagt führen wir eine neuartige zeitliche Pose-Konvolution ein, die räumliche Poses über Frames aggregiert. Im Gegensatz zur klassischen zeitlichen Konvolution kann unsere Operation die Pose-Bewegungen explizit lernen, die für die Erkennung menschlicher Aktionen diskriminativ sind. Umfangreiche Experimente an drei etablierten Benchmarks (JHMDB, HMDB und Charades) zeigen, dass PA3D die jüngsten posebasierten Ansätze übertrifft. Zudem ist PA3D hochkomplementär zu aktuellen 3D-CNNs, beispielsweise I3D. Die Mehrstrahl-Fusion erreicht auf allen untersuchten Datensätzen die bisher beste Leistung.