7ヶ月前

概要

本論文は、疎視点ビデオを入力として用いる人間の高忠実度視点合成の課題に取り組んでいます。従来の手法では、4次元拡散モデルを活用して新しい視点からのビデオを生成することで観測不足の問題を解決していました。しかし、これらのモデルから生成されたビデオはしばしば空間時間的一貫性に欠けており、視点合成の品質が低下する原因となっています。本論文では、4次元拡散モデルの空間時間的一貫性を向上させる新たなスライディング反復デノイジングプロセスを提案します。具体的には、各潜在変数が特定の視点と時刻における画像、カメラ姿勢、および人間の姿勢を符号化する潜在グリッドを定義し、スライディングウィンドウを使用して空間次元と時間次元で交互に潜在グリッドをデノイズ処理し、最後に対応するデノイズされた潜在変数から目標視点でのビデオを復号します。反復的なスライディングにより、情報が十分に潜在グリッド全体に伝播し、拡散モデルが大きな受容野を得て4次元の一貫性が向上するとともに、GPUメモリー消費量も適切な範囲内に抑えられます。DNA-RenderingおよびActorsHQデータセットでの実験結果は、当方法が高品質かつ一貫性のある新規視点ビデオの合成ができることを示しており、既存の手法に対して大幅な性能向上を達成しています。対話型デモンストレーションやビデオ結果についてはプロジェクトページをご覧ください: https://diffuman4d.github.io/ 。

ソースPDF コードを表示