
要約
3D人体ポーズ推定ネットワークを高精度に訓練するための前提条件は、豊富なラベル付き訓練データの保有である。しかし、手動で豊富かつ正確なラベルを取得することは、不可能ではないにせよ、非常に手間がかかり、時間がかかる。本論文では、単眼動画を活用して、単画像からの3D人体ポーズ推定タスクにおける訓練データセットを補完する手法を提案する。まず、少数のラベル付きデータを用いてベースラインモデルを訓練する。その後、得られたモデルが生成する信頼性の高い推定値を固定し、3D軌道補完問題として解くことで、動画全体にわたる自動ラベル収集を実現する。続いて、収集されたラベルを用いてベースラインモデルを再訓練し、新たなポーズを学習させる。本手法は広く採用されているHuman3.6MおよびMPI-INF-3DHPデータセット上で評価された。実験の結果、わずかな初期ラベルセットのみを前提として、本手法は未ラベルの単眼動画から新たなポーズを学習可能であり、ベースラインモデルの精度を約10%向上させることに成功した。従来の手法と比較して、本手法はマルチビュー画像や明示的な2Dキーポイントラベルに依存しない点が特徴である。