3ヶ月前
I2L-MeshNet:単一のRGB画像から高精度な3D人体ポーズおよびメッシュ推定を実現するImage-to-Lixel予測ネットワーク
Gyeongsik Moon, Kyoung Mu Lee

要約
これまでの画像ベースの3D人体ポーズおよびメッシュ推定手法の多くは、入力画像から人体メッシュモデルのパラメータを推定する。しかし、入力画像のピクセル間の空間的関係を破壊するため、直接的にパラメータを回帰する手法は非常に非線形なマッピングとなる。さらに、予測の不確実性をモデル化できないという課題もあるため、学習が難しくなることがある。上記の問題を解決するため、本研究では「I2L-MeshNet」と呼ばれる、画像からリクセル(ライン+ピクセル)への予測ネットワークを提案する。本手法は、メッシュの各頂点座標に対して、1次元ヒートマップ上の各リクセルの尤度を予測する方式を採用している。これにより、入力画像内の空間的関係を保持しつつ、予測の不確実性もモデル化可能となる。画像からリクセルへの予測の有効性を実証し、提案手法のI2L-MeshNetが従来手法を上回ることを示した。コードは公開されており、GitHubにて入手可能である:https://github.com/mks0601/I2L-MeshNet_RELEASE。