GLA-GCN:モノクロム動画からの3D人体ポーズ推定を目的としたグローバル-ローカル適応型グラフ畳み込みネットワーク

3D人体ポーズ推定は数十年にわたり研究されており、着実な成果が得られている。特に3D人体ポーズリフティング(pose lifting)は、推定されたポーズと真値ポーズの両方を訓練に用いるという有望な研究方向性として注目されている。既存のポーズリフティング手法は、主に推定ポーズの性能向上に注力しているが、真値ポーズデータ上でテストすると、しばしば性能が劣化する傾向にある。本研究では、高品質な2Dポーズデータ(例えば、2Dポーズ推定器のファインチューニングや先進的な2Dポーズ検出器の利用)を用意することで、推定ポーズの性能を容易に向上させられることに着目した。この観察に基づき、今後のより高品質な推定ポーズデータの向上を目指して、真値データを活用した3D人体ポーズリフティングの性能向上に焦点を当てた。その目的の達成に向けて、本研究ではシンプルかつ効果的なモデルとして「グローバル-ローカル適応型グラフ畳み込みネットワーク(Global-local Adaptive Graph Convolutional Network, GLA-GCN)」を提案する。GLA-GCNは、グラフ表現を用いて時空間構造をグローバルにモデル化するとともに、個別に接続された層によりローカルな関節特徴を後方伝播(backtrace)することで、3D人体ポーズ推定を実現する。モデル設計の有効性を検証するため、Human3.6M、HumanEva-I、MPI-INF-3DHPの3つのベンチマークデータセット上で広範な実験を実施した。実験結果から、真値2Dポーズを用いたGLA-GCNは、最先端手法を大きく上回る性能を発揮することが明らかになった。具体的には、Human3.6M、HumanEva-I、MPI-INF-3DHPにおいて、それぞれ約3%、17%、14%の誤差低減が達成された。GitHubリポジトリ:https://github.com/bruceyo/GLA-GCN