Command Palette
Search for a command to run...
注意に基づくニューラルネットワークと拡張畳み込みを用いた動画からの高精度3D人体ポーズ推定
注意に基づくニューラルネットワークと拡張畳み込みを用いた動画からの高精度3D人体ポーズ推定
Ruixu Liu Ju Shen He Wang Chen Chen Sen-ching Cheung Vijayan K. Asari
概要
注目メカニズムは、空間モデルの学習において強化された暗黙的な時間的一貫性を備えた逐次予測フレームワークを提供する。本研究では、従来のネットワークや他の制約条件を、ポーズ推定というタスクにおける長距離依存関係の学習に向けた注目フレームワークに統合するための体系的な設計(2次元から3次元への拡張)を示す。本論文の貢献は、任意の動画シーケンスを入力として扱える柔軟性とスケーラビリティを備えた、エンドツーエンドのポーズ推定に向けた注目ベースモデルの設計および学習の体系的アプローチを提供することにある。これは、膨張畳み込みのマルチスケール構造を用いて時間的受容野を適応的に調整することで実現される。さらに、提案するアーキテクチャは因果モデル(causal model)に容易に変換可能であり、リアルタイム処理を可能にする。また、Mocapライブラリをはじめとする既存の2次元ポーズ推定システムを、臨時の手法で簡単に統合できる。本手法は、Human3.6Mデータセットにおいて、平均関節位置誤差を33.4 mmまで低減し、従来の手法を上回る最先端の性能を達成した。