2ヶ月前
3D 写真ビデオの学習:単一画像における自己監督拡散を用いて
Wang, Xiaodong ; Wu, Chenfei ; Yin, Shengming ; Ni, Minheng ; Wang, Jianfeng ; Li, Linjie ; Yang, Zhengyuan ; Yang, Fan ; Wang, Lijuan ; Liu, Zicheng ; Fang, Yuejian ; Duan, Nan

要約
3Dフォトグラフィは静止画を魅力的な3D視覚効果を持つ動画に変換します。既存の手法は通常、まず単眼深度推定を行い、その後、さまざまな視点から入力フレームを後続のフレームにレンダリングし、最後に欠落または隠れた領域を埋めるためのインペイントモデルを使用します。インペイントモデルはレンダリング品質において重要な役割を果たしますが、一般的にはドメイン外のデータで訓練されます。この訓練と推論のギャップを縮めるために、我々は新しい自己監督型ディフュージョンモデルをインペイントモジュールとして提案します。単一の入力画像が与えられた場合、ランダムなサイクルレンダリングによりマスクされた欠落画像と真値画像の訓練ペアを自動的に構築します。構築された訓練サンプルはテストインスタンスと密接に一致しており、データアノテーションの必要がありません。マスクされた画像を十分に活用するために、UNetに簡単に組み込むことができるMasked Enhanced Block(MEB)を設計しました。これによりセマンティック条件が強化されます。現実世界でのアニメーション生成に向けて、我々は新たな課題である「アウトアニメーション」を提示します。これは入力オブジェクトの空間と時間を拡張するものです。実際のデータセットに対する広範な実験結果から、我々の方法が既存の最先端手法と競合する結果を得ていることが示されています。