17日前

動的な姿勢に配慮した階層型アテンションネットワークによる動画内人体ポーズ推定

Kyung-Min Jin, Byoung-Sung Lim, Gun-Hee Lee, Tae-Kyung Kang, Seong-Whan Lee
動的な姿勢に配慮した階層型アテンションネットワークによる動画内人体ポーズ推定
要約

従来の動画ベースの人体ポーズ推定手法は、連続フレームの特徴量を統合することで有望な結果を示してきた。しかし、多くの手法はジッターを軽減するための妥協として精度を損なうか、人体運動の時間的特性を十分に捉えていない。さらに、オクルージョンの影響により連続フレーム間の不確実性が増大し、滑らかでない推定結果が生じる。これらの課題に対処するため、以下の構成要素を備えたアーキテクチャを設計した。第一に、個々のキーポイントの速度および加速度を活用することで、効果的に時間的特徴を捉える。第二に、提案する階層的トランスフォーマーエンコーダーにより、空間的・時間的依存関係を統合し、既存の推定器から得られる2Dまたは3Dポーズ入力を精緻化する。第三に、エンコーダーから生成される精緻化された入力ポーズと、デコーダーからの最終ポーズの間にオンラインでのクロス監視(cross-supervision)を導入し、同時最適化を可能にする。本研究では、2Dポーズ推定、3Dポーズ推定、ボディメッシュの復元、およびスパースにアノテーションされた複数人体ポーズ推定という多様なタスクにおいて、包括的な実験結果を提示し、モデルの有効性を検証した。実装コードは以下のURLから公開されている:https://github.com/KyungMinJin/HANet。

動的な姿勢に配慮した階層型アテンションネットワークによる動画内人体ポーズ推定 | 最新論文 | HyperAI超神経