
要約
単一の画像から3次元人体ポーズおよびメッシュ再構成を行うため、グラフ畳み込みを強化したトランスフォーマー「Mesh Graphormer」を提案する。近年、トランスフォーマーとグラフ畳み込みニューラルネットワーク(GCNN)の両方が、人体メッシュ再構成において顕著な進展を遂げている。トランスフォーマーに基づくアプローチは、3次元メッシュ頂点および体節間の非局所的相互作用を効果的にモデル化できる一方、GCNNは事前に定義されたメッシュトポロジーに基づき、近傍頂点間の局所的相互作用を効果的に捉えることができる。本研究では、トランスフォーマー内でのグラフ畳み込みと自己注意機構を統合することで、局所的およびグローバルな相互作用を同時にモデル化する方法を検討する。実験結果から、提案手法であるMesh Graphormerが、Human3.6M、3DPW、FreiHANDなどの複数のベンチマークにおいて、従来の最先端手法を顕著に上回ることが明らかになった。コードおよび事前学習済みモデルは、https://github.com/microsoft/MeshGraphormer にて公開されている。