
要約
本稿では、骨格情報に基づく動画における行動認識を目的として、深層段階的強化学習(Deep Progressive Reinforcement Learning: DPRL)手法を提案する。本手法は、行動認識に有用な情報を含むフレームを抽出し、曖昧なフレームを除外することを目的としている。各動画に対して代表フレームの選択肢は多様であるため、フレーム選択を深層強化学習を用いた段階的プロセスとしてモデル化する。この過程において、選択されたフレームを、以下の2つの重要な要因を考慮して段階的に調整する:(1)選択されたフレームの品質、および(2)選択されたフレームと全体の動画との関係性。さらに、人体の構造は inherently グラフ構造(graph-based structure)に従うという点に着目し、頂点を関節、辺を剛体骨格として表現する。この構造を活かして、グラフベースの畳み込みニューラルネットワーク(Graph-based Convolutional Neural Network)を用いて関節間の依存関係を捉え、行動認識を実現する。提案手法は、広く用いられる3つのベンチマークにおいて、非常に競争力ある性能を達成した。