PoseTriplet:自己教師学習下における3D人体ポーズ推定、模倣、および幻覚の共同進化

従来の自己教師あり3次元人体ポーズ推定手法は、主に一貫性損失(consistency loss)のような弱い教師信号に依存しており、未観測のポーズを含む実世界のシナリオにおいて、必然的に性能が劣化するという課題があった。本論文では、自己強化型二重ループ学習フレームワークを用いて、2D-3Dポーズペアを明示的に生成することで、教師信号を拡張可能な新しい自己教師ありアプローチを提案する。このアプローチの実現の鍵となるのは、ポーズ推定器とポーズ幻覚生成器(pose hallucinator)と jointly に学習される強化学習ベースの模倣者(imitator)の導入である。この三つの要素が訓練過程において二重のループを形成し、互いに補完・強化し合う構造となる。具体的には、ポーズ推定器が入力となる2Dポーズ系列を低精度の3D出力に変換し、その出力を模倣者が物理的制約を強制することで精緻化する。精緻化された3Dポーズは、その後、幻覚生成器に供給され、さらに多様なデータを生成する。生成されたデータは再び模倣者によって強化され、さらにポーズ推定器の訓練に利用される。この共進化的な学習スキームにより、実際には任意の既存3Dデータに依存せずに、自己生成された運動データ上でポーズ推定器を訓練することが可能となる。複数のベンチマークにおける広範な実験結果から、本手法は最先端の自己教師あり手法を著しく上回る良好な性能を達成しており、一部の設定では完全教師あり手法と同等の結果を示すことも明らかになった。特に、自己教師ありクロスデータセット評価設定下でMPI-INF-3DHPデータセットにおいて3D PCKが89.1%を達成し、従来の最良の自己教師あり手法よりも8.6%向上した。コードは以下のURLで公開されている:https://github.com/Garfield-kh/PoseTriplet