Command Palette
Search for a command to run...
人々を結ぶ:3次元と2次元人体表現の間のフィードバックループを閉じる
人々を結ぶ:3次元と2次元人体表現の間のフィードバックループを閉じる
概要
3Dモデルは、人体の異なる表現形式の共通基盤を提供する。これにより、堅牢な2D推定が「自然な状況(in-the-wild)」における3Dモデルの適合(fit)を実現する強力なツールとして実証されている。しかしながら、詳細度に応じて、大規模な2D推定器の学習に必要なラベル付きデータを取得することは、困難甚至不可能である場合がある。本研究では、この課題に対してハイブリッドアプローチを提案する。最近導入されたSMPLify手法の拡張版を用いて、複数の人体ポーズデータセットに対して高品質な3D人体モデルの適合を取得する。その後、人間のアノテーターが適合結果を「良し」と「悪し」に分類するのみである。このプロセスにより、豊富なアノテーションを備えた初期データセットUP-3Dが構築される。包括的な実験を通じて、このデータを用いて判別型モデルを学習可能であることを示し、従来にない高い詳細度の結果を達成できることが明らかになった。具体的には、モデルが人体に対して31個の部位と91個のランドマーク位置を予測する。91個のランドマークを用いたポーズ推定器を用いて、性別やポーズに関する仮定を一切設けず、かつ学習データ量を1桁小さくしても、3D人体ポーズおよび形状推定において最先端の性能を達成した。さらに、UP-3Dはこの改善された適合結果を統合することで、量と質の両面で拡張可能であることを示し、大規模な展開が可能であることを実証した。本研究で使用したデータ、コード、およびモデルは、研究目的に限り公開されている。