2ヶ月前

非監督的な3次元姿勢推定による階層的ダンスビデオ認識

Xiaodan Hu; Narendra Ahuja
非監督的な3次元姿勢推定による階層的ダンスビデオ認識
要約

ダンスの専門家は、ダンスを情報の階層構造として捉えることがよくあります。この構造は、低レベル(生画像、画像列)、中レベル(人間の姿勢と身体部位の動き)、高レベル(ダンスジャンル)にわたります。本稿では、階層的なダンスビデオ認識フレームワーク(Hierarchical Dance Video Recognition: HDVR)を提案します。HDVRは2D姿勢シーケンスを推定し、ダンサーを追跡した後、3D姿勢と3Dから2Dへの投影パラメータを同時に推定します。この過程では3D姿勢の真値を必要としません。ほとんどの方法が単一の人物に対して動作するのに対し、当社の追跡手法は複数のダンサーに対応し、被覆状況下でも機能します。推定された3D姿勢シーケンスから、HDVRは身体部位の動きを抽出し、そこからダンスジャンルを特定します。得られた階層的なダンス表現は専門家にとって説明可能となっています。ノイズやフレーム間の一貫性の曖昧さを克服するために、空間的および時間的な運動平滑性と光度の一貫性を強制的に保ちます。また、LSTMネットワークを使用して3D運動サブシーケンスを抽出し、それからダンスジャンルを認識します。実験のために、我々は16個の身体部位に関連する154種類の動きタイプを特定し、「イリノイ大学ダンスデータセット(University of Illinois Dance: UID)」という新しいデータセットを作成しました。このデータセットには9つのジャンルにわたる1143本のビデオクリップが含まれており、総計30時間をカバーしています。これらのクリップには動きとジャンルのラベルが付いています。実験結果は、当社のアルゴリズムが最先端の3D姿勢推定手法よりも優れていることを示しており、これにより当社のダンス認識性能も向上しています。

非監督的な3次元姿勢推定による階層的ダンスビデオ認識 | 最新論文 | HyperAI超神経