自己監督学習によるモーションキャプチャの学習

単一カメラからのモーションキャプチャの最新ソリューションは最適化駆動型である:それらは3Dヒューマンモデルのパラメータを最適化し、その再投影がビデオ内の測定値(例:人物セグメンテーション、光学フロー、キーポイント検出など)と一致するようにする。最適化モデルは局所最小値に陥りやすいという弱点がある。これがボトルネックとなり、撮影時にクリーンなグリーンスクリーンのような背景を使用したり、手動初期化を行ったり、複数のカメラを入力資源として使用したりすることを余儀なくされてきた。本研究では、単一カメラ入力を対象とした学習ベースのモーションキャプチャモデルを提案する。当モデルは直接メッシュや骨格パラメータを最適化する代わりに、モノクロRGBビデオから3D形状と骨格構成を予測するニューラルネットワークの重みを最適化する。当モデルは合成データからの強い監督と、(a) 骨格キーポイント、(b) 密集3Dメッシュ運動、(c) 人物-背景セグメンテーションの微分可能レンダリングによる自己監督の組み合わせを使用してエンドツーエンドフレームワークで訓練される。経験的に示すところでは、当モデルは教師あり学習とテスト時の最適化の両方の世界における最良点を組み合わせている:教師あり学習はモデルパラメータを正しい範囲に初期化し、テスト時には手動での努力なしで良好な姿勢と表面初期化を確保する。微分可能レンダリングを通じてバックプロパゲーションを行うことで実現される自己監督は(教師なしで)モデルがテストデータに適合することを可能にし、事前学習済み固定モデルよりも遥かに密接なフィットを提供する。我々は提案されたモデルが経験とともに改善し、従来の最適化手法が失敗した場面でも低誤差解に収束することを示している。注:- "monocular RGB video" を「モノクロRGBビデオ」と訳しましたが、「単眼RGBビデオ」の方がより正確かもしれません。- "strong supervision" と "self-supervision" の区別のために、「強い監督」と「自己監督」と訳しています。- "end-to-end framework" を「エンドツーエンドフレームワーク」と訳しましたが、「端対端フレームワーク」も使用されます。- "converges to low-error solutions" を「低誤差解に収束」のように訳しました。