MUG:2次元ポーズからの3Dメッシュ再構成を 위한マルチヒューマングラフネットワーク

単一のモノクロ画像から複数人の人体メッシュを再構成することは、重要なが困難なコンピュータビジョンの課題である。個々の人体メッシュモデルに加えて、複数の被験者間の相対的な3次元位置を推定する必要があり、一貫性のある表現を生成するためである。本研究では、MUG(Multi-hUman Graph network)と呼ばれる単一のグラフニューラルネットワークを用いて、複数人の2次元ポーズのみを入力として、一貫性のある複数人メッシュを構築する手法を提案する。従来の手法は、検出型のパイプライン(画像特徴量を抽出し、人間インスタンスを特定し、その上で人体メッシュを復元する)を採用しており、ラボで収集された訓練データセットと実環境(in-the-wild)でのテストデータセットとの間で顕著なドメインギャップを抱えるという課題がある。一方、本手法は2次元ポーズを入力としており、データセット間で比較的一貫した幾何学的性質を持つため、その利点を活かすことができる。本手法の概要は以下の通りである。まず、複数人環境をモデル化するため、複数人の2次元ポーズを処理し、異なる人物間および1人の人物内部のノードが接続された新たな非均質グラフを構築する。このグラフは、人物間の相互作用を捉え、人体の幾何構造(骨格およびメッシュ構造)を表現する。次に、二重枝構造のグラフニューラルネットワークを採用する。一方の枝は人物間の奥行き関係(depth relation)を予測し、もう一方の枝は根関節(root joint)からの相対的なメッシュ座標を予測する。最後に、両枝の出力を統合することで、全体の複数人3次元メッシュを構築する。広範な実験により、MUGが標準的な3次元人体ベンチマーク(Panoptic、MuPoTS-3D、3DPW)において、従来の複数人メッシュ推定手法を上回る性能を発揮することが実証された。