HSPACE:複雑な環境においてアニメーション化された合成パラメトリックヒューマン

3次元人体センシングの最先端技術は、現実世界の環境下で複数の人物が動き回り、複雑な照明条件や遮蔽(オクルージョン)が生じ、動くカメラによって観測される状況において、3次元の真値(ground truth)を備えた視覚データセットが不足していることにより、現在のところ制限を受けている。高度なシーン理解には、人体のポーズ・形状およびジェスチャーを推定し、最終的には有用な計測信号と行動信号を統合した表現と、自由視点での写実的な視覚化機能を併せ持つことが求められる。進展を継続するため、我々は複雑な合成された屋内・屋外環境にアニメーション化された人物を配置した大規模な写実的データセット「Human-SPACE(HSPACE)」を構築した。年齢、性別、体型、人種が多様な100名の人物を、数百の動作とシーン、およびパラメトリックな体型変化(合計1,600種類の異なる人物)と組み合わせることで、100万フレームを超える初期データセットを生成した。人物アニメーションは、個々のスキャンデータに表現力豊かな人体モデル「GHUM」を適合させ、新たなリターゲティングおよび配置プロセスを用いることで得られた。これにより、衣服を着た人物のリアルなアニメーション、体型の統計的変動、複数の動く人物の整合性のあるシーン内配置が実現可能となった。生成されたアセットは大規模かつ自動的に作成され、既存のリアルタイムレンダリングシステムおよびゲームエンジンと互換性を持つ。本データセットおよび評価サーバーは、研究目的で公開される予定である。実データと弱教師あり学習(weak supervision)との連携において、合成データの影響を大規模に分析した結果、モデルの表現力が向上するにつれて、シミュレーションから現実へのギャップ(sim-to-real gap)を著しく縮小し、品質改善を継続的に実現する可能性が示された。