Command Palette
Search for a command to run...
Lin Li Zehuan Huang Haoran Feng Gengxiong Zhuang Rui Chen Chunchao Guo Lu Sheng

要約
指定領域の3Dローカル編集は、ゲーム産業およびロボットインタラクションにおいて極めて重要である。近年の手法は、通常、複数視点レンダリング画像を編集した後、3Dモデルを再構成するが、編集対象外の領域を正確に保持することができず、全体的な整合性も確保しづらいという課題に直面している。構造化された3D生成モデルに着想を得て、本研究では、トレーニングを必要としない新しいアプローチであるVoxHammerを提案する。この手法は、3D潜在空間において正確かつ整合性のある編集を実現する。与えられた3Dモデルに対して、VoxHammerはまずその逆問題軌道(inversion trajectory)を予測し、各時刻における逆変換された潜在表現(inverted latents)およびキーバリュートークン(key-value tokens)を取得する。その後、ノイズ除去と編集フェーズにおいて、保持領域のノイズ除去特徴量を対応する逆変換潜在表現およびキャッシュされたキーバリュートークンに置き換える。これらの文脈情報を保持することで、編集対象外領域の一貫した再構成と、編集領域の整合性のある統合を実現する。保持領域の整合性を評価するため、数百のサンプルから構成され、各サンプルに丁寧にラベル付けされた3D編集領域を持つ人間によるアノテーション付きデータセット「Edit3D-Bench」を構築した。実験の結果、VoxHammerは従来手法に比べ、保持領域の3D整合性および全体的な品質において顕著な性能向上を示した。本手法は、高品質な編集済みペアデータの合成に有望であり、コンテキスト内3D生成のためのデータ基盤を築く可能性を秘めている。プロジェクトページは以下のURLにてご確認ください:https://huanngzh.github.io/VoxHammer-Page/。