3日前

Tinker:拡散モデルが3Dにもたらす贈り物——シーン最適化を必要としないスパース入力からの多視点一貫性のある編集

Canyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen
Tinker:拡散モデルが3Dにもたらす贈り物——シーン最適化を必要としないスパース入力からの多視点一貫性のある編集
要約

本稿では、シーンごとの微調整を一切不要にしつつ、ワンショットおよび少数ショットの設定下でも高忠実度の3D編集を実現する汎用的なフレームワーク「Tinker」を紹介する。従来の手法は、複数視点間の一貫性を確保するか、数十枚の整合性のある編集済み入力ビューを生成するために、シーンごとに膨大な最適化を必要としていたが、Tinkerはたった1枚または2枚の画像からも、堅牢かつ複数視点にわたる整合性を持つ編集を実現する。この能力は、事前学習済みの拡散モデルを再利用することで得られ、それらの潜在的な3D認識能力を活用している。本分野の研究を促進するため、多様なシーンとスタイルをカバーする大規模なマルチビュー編集データセットおよびデータパイプラインを初めて構築した。このデータセットを基盤として、シーンごとの学習なしにマルチビュー整合性のある編集ビューを生成できるフレームワークを構築した。このフレームワークは、以下の2つの新規なモジュールから構成される:(1) 参照駆動型マルチビュー編集モジュール:すべての視点にわたって一貫性を保ちつつ、正確な参照に基づく編集を可能にする。(2) 任意視点から動画への合成器:動画拡散モデルから得られる空間時系列事前知識を活用し、入力が稀な状況下でも高品質なシーン補完および新視点生成を実現する。広範な実験により、Tinkerは汎用的な3Dコンテンツ制作の障壁を著しく低減し、編集、新視点生成、レンダリング向上の各タスクにおいて最先端の性能を達成した。我々は、Tinkerが真にスケーラブルでゼロショットな3D編集への重要な一歩であると確信している。プロジェクトウェブページ:https://aim-uofa.github.io/Tinker