Command Palette
Search for a command to run...

要約
3Dネイティブな生成モデルの最近の進展により、ゲーム、映画、デザイン分野におけるアセット生成が急速に進展している。しかし、現行の大多数の手法は依然として画像やテキストによる条件付けに依存しており、細粒度かつマルチモーダルな制御機能が不足しているため、制御性の限界や実用的導入の妨げとなっている。この課題に対応するため、本研究では、Hunyuan3D 2.1を基盤として構築された、細粒度かつ制御可能な3Dアセット生成を統合的に実現するフレームワーク「Hunyuan3D-Omni」を提案する。本モデルは画像に加え、点群(point clouds)、ボクセル(voxels)、バウンディングボックス、および骨格ポーズ(skeletal pose)の事前情報といった多様な条件信号を入力可能であり、形状、トポロジー、姿勢の各要素に対して精密な制御を可能にする。各モダリティごとに別々の出力ヘッドを設けるのではなく、すべての条件信号を一つの統合的マルチモーダルアーキテクチャ内で統一的に処理する。また、難易度を意識したプログレッシブなサンプリング戦略を用いて学習を実施し、各サンプルに対して1つの制御モダリティを選択する一方で、難易度の高い信号(例:骨格ポーズ)を優先的にサンプリングし、容易な信号(例:点群)の重みを低減することで、堅牢なマルチモーダル融合を促進するとともに、入力の欠落に対しても滑らかに対応できる性能を実現する。実験の結果、これらの追加的な制御機能により生成精度が向上し、幾何学的情報を考慮した変換が可能になり、プロダクションワークフローにおける耐障害性も向上することが確認された。