8日前
現実的な生成型3D顔モデルへの道 (注:LLM/LLMs/Agent/token/tokens などの固有用語は原文のまま保持。本翻訳は学術論文のスタイルに準拠し、自然で流暢な日本語表現を採用。)
Aashish Rai, Hiresh Gupta, Ayush Pandey, Francisco Vicente Carrasco, Shingo Jason Takagi, Amaury Aubel, Daeil Kim, Aayush Prakash, Fernando de la Torre

要約
近年、アニメーションや合成データ生成、デジタルアバターといった応用の進展により、2次元(2D)生成型顔モデルの分野で顕著な進歩が見られている。しかし、3次元(3D)情報が欠如しているため、これらの2Dモデルは姿勢、表情、照明といった顔の属性を正確に分離することができず、編集の自由度に制限が生じている。この課題を解決するため、本研究では既存の2D生成モデルを活用して高品質なアルベド(表面反照率)と正確な3D形状を生成可能な、3D制御可能な生成型顔モデルを提案する。2D顔生成モデルと意味論的顔編集技術を統合することで、詳細な3Dレンダリング顔の編集が可能となる。提案手法は、形状とアルベドの両方に対して交互勾配最適化(alternating descent optimization)を採用している。微分可能レンダリングを用いることで、3Dラベルなしの環境下でも高品質な形状とアルベドを学習可能である。さらに、形状再構成の代表的ベンチマークであるNoWにおいて、従来の最先端(SOTA)手法を上回る性能を示した。また、新規な姿勢に対してレンダリングされた顔のアイデンティティを復元する際、SOTA再構成モデルと比較して平均10%の性能向上を達成した。さらに、潜在空間(latent space)を活用することで、3D顔の表情を直接制御可能であり、テキストベースの3D顔編集を実現することも示した。