8日前
単一のRGB画像からの3Dハンド再構成のための遮蔽感知テクスチャ回帰を備えた確率的アテンションモデル
Zheheng Jiang, Hossein Rahmani, Sue Black, Bryan M. Williams

要約
近年、単一のRGB画像から3次元手の再構成を行うための深層学習ベースのアプローチが、有望な成果を上げている。これらのアプローチは、主にモデル依存型アプローチとモデルフリー型アプローチに大別される。モデル依存型アプローチは、モデルのパラメータ空間に強く依存するが、モデルフリー型アプローチは、深度の曖昧さを低減するため多数の3次元教師データを必要とし、弱教師付き(weakly-supervised)な状況では性能が劣化しやすいという課題を抱えている。こうした問題を克服するため、本研究では、モデル依存型アプローチの高いロバスト性と、モデルフリー型アプローチのパラメータ空間への依存度の低さを両立する新しい確率的モデルを提案する。提案する確率的モデルでは、関節およびメッシュ頂点の事前確率分布を推定するための「事前ネットワーク(prior-net)」として、モデル依存型ネットワークを組み込む。さらに、頂点間の依存関係および関節とメッシュ頂点間の相関関係を捉えることで、特徴表現を向上させるため、注意機構(Attention)を導入したメッシュ頂点の不確実性回帰モデル(Attention-based Mesh Vertices Uncertainty Regression: AMVUR)を提案する。また、高忠実度の手のテクスチャ再構成を実現するため、学習ベースのオクルージョン対応型テクスチャ回帰モデルをさらに提案する。本研究では、提案モデルが教師ありおよび弱教師ありの両訓練環境において柔軟に学習可能であることを示した。実験結果から、両訓練スキームにおいて、特に重度のオクルージョンが発生する状況下でも、3次元手の形状およびテクスチャ再構成において、最先端の精度を達成することが確認された。