16日前

視野範囲条件付き拡散モデルを用いたゼロショットメトリック深度

Saurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J. Fleet

要約

モノクロ深度推定のための手法は、標準的なベンチマークにおいて顕著な進展を遂げているものの、ゼロショットメトリック深度推定は依然として未解決の課題である。その主な課題として、RGBと深度の分布が大きく異なる屋内と屋外シーンを同時にモデル化する必要性が挙げられ、さらにカメラの内部パラメータ（intrinsics）が未知であるため生じる深度スケールの曖昧性がある。最近の研究では、屋内と屋外シーンを共同でモデル化するための専用のマルチヘッドアーキテクチャが提案されている。一方、本研究では汎用的かつタスクに依存しない拡散モデル（diffusion model）を提唱し、いくつかの技術的進展を実現している。具体的には、屋内・屋外シーンの同時モデル化を可能にするための対数スケール深度パラメータ化、深度スケールの曖昧性を解消するための視野角（FOV: Field-of-View）条件付き推定、および学習時に合成的にFOVを拡張することで、訓練データに含まれる制限されたカメラ内部パラメータを超えた汎化性能を実現している。さらに、一般的な訓練混合（training mixture）よりも多様性の高いデータセットを採用し、効率的な拡散パラメータ化を導入した結果、本手法DMD（Diffusion for Metric Depth）は、わずか少数のノイズ除去ステップ（denoising steps）で、最新のSOTA（State-of-the-Art）手法と比較して、ゼロショット屋内データセットで相対誤差（REL）を25%、ゼロショット屋外データセットで33%削減することに成功した。詳細は以下のウェブサイトを参照：https://diffusion-vision.github.io/dmd