16日前
Magic3D:高解像度テキストから3Dコンテンツを生成する手法
Chen-Hsuan Lin, Jun Gao, Luming Tang, Towaki Takikawa, Xiaohui Zeng, Xun Huang, Karsten Kreis, Sanja Fidler, Ming-Yu Liu, Tsung-Yi Lin

要約
DreamFusionは最近、事前学習されたテキストから画像への拡散モデルを用いてNeural Radiance Fields(NeRF)の最適化を行うことで、顕著なテキストから3D生成の成果を達成した。しかしながら、この手法には二つの根本的な制約が存在する。(a)NeRFの最適化が極めて遅いこと、および(b)低解像度の画像空間における監視により、高品質な3Dモデルの生成が困難であり、処理に長時間を要することである。本論文では、これらの制約を克服するため、二段階最適化フレームワークを活用する。まず、低解像度の拡散事前知識を用いて粗いモデルを取得し、スパースな3Dハッシュグリッド構造を用いて高速化を行う。得られた粗い表現を初期値として用い、高解像度の潜在拡散モデルと相互作用する効率的な微分可能レンダラを用いて、テクスチャ付き3Dメッシュモデルをさらに最適化する。本手法は「Magic3D」と名付けられ、40分という短時間で高品質な3Dメッシュモデルを生成可能であり、DreamFusionの平均1.5時間(報告値)を2倍の速度で達成するとともに、より高い解像度を実現している。ユーザーテストの結果、61.7%の被験者が本手法をDreamFusionよりも好むと評価した。画像条件付き生成機能と併せ、ユーザーが3D生成をより柔軟に制御できる新たな手段を提供し、多様なクリエイティブな応用分野への展開を可能にする。