17日前
動画からの人体ポーズおよび形状推定における空間時間的傾向推論
Boyang Zhang, SuPing Wu, Hu Cao, Kehua Ma, Pan Li, Lei Lin

要約
本稿では、動画から人体のポーズおよび形状を復元するための空間時系列傾向推論(Spatio-Temporal Tendency Reasoning, STR)ネットワークを提案する。従来の手法は、3次元人体データセットの拡張や時系列ベースの学習を用いて、精度および時系列の滑らかさを向上させることに注力してきた。これに対して、本研究のSTRは、制約のない環境下で正確かつ自然な運動シーケンスを、空間的・時系列的傾向の学習を通じて獲得することを目的とし、既存の動画データの空間時系列特徴をより徹底的に活用することを目指す。そのため、STRは時系列方向および空間方向の特徴表現を別々に学習することで、より堅牢な空間時系列特徴表現を獲得することを重視している。具体的には、効率的な時系列モデリングのため、まず時系列傾向推論(Temporal Tendency Reasoning, TTR)モジュールを提案する。TTRモジュールは、動画シーケンス内において時系列次元に沿った階層的残差接続表現を構築し、時系列の傾向を効果的に推論するとともに、人体情報の有効な伝播を維持する。一方、空間表現の強化を図るため、空間傾向強化(Spatial Tendency Enhancement, STE)モジュールを設計し、人体運動情報表現における空間周波数領域に敏感な特徴をさらに強調する学習を実現している。最後に、空間時系列特徴表現を統合・精緻化するための統合戦略を導入する。大規模な公開データセットを用いた広範な実験結果から、本手法は3つのデータセットにおいて最先端の性能と競合する能力を示した。本研究のコードは、https://github.com/Changboyang/STR.git にて公開されている。