17日前

PA3D:ポーズ・アクション 3D マシンによる動画認識

{ Yu Qiao, Zhifeng Li, Yali Wang, An Yan}
PA3D:ポーズ・アクション 3D マシンによる動画認識
要約

最近の研究では、3D CNNを用いた動画行動認識において高い成果が報告されている。しかし、大多数の3DモデルはRGBとオプティカルフローの2つのストリームに基づいているため、人体のポーズダイナミクス——行動をモデル化する上で重要な手がかり——を十分に活用できていない可能性がある。このギャップを埋めるために、本研究では一貫した3Dフレームワーク内で複数のポーズモダリティを効果的に符号化できる簡潔なPose-Action 3D Machine(PA3D)を提案する。これにより、行動認識に向けた空間時間的ポーズ表現を学習することが可能となる。具体的には、フレーム間における空間的ポーズを統合する新しい時系列ポーズ畳み込みを導入する。従来の時系列畳み込みとは異なり、本手法は人間の行動を識別する上で特徴的なポーズ運動を明示的に学習できる。JHMDB、HMDB、Charadesの3つの代表的なベンチマークにおける広範な実験結果から、PA3Dは最近のポーズベースのアプローチを上回る性能を示した。さらに、PA3Dは最近の3D CNN(例:I3D)と高い相補性を示し、マルチストリーム統合によってすべての評価データセットで最先端の性能を達成した。