DepthMaster: 単眼深度推定のための拡散モデルの制御

単眼深度推定における拡散デノイジングパラダイムは、印象的な汎化能力を示していますが、推論速度が低いという問題があります。最近の手法では、推論効率を向上させつつ同等の性能を維持するため、一歩の決定論的パラダイムを採用しています。しかし、生成的特徴と識別的特徴の間のギャップを見落としており、最適でない結果につながっています。本研究では、DepthMasterと呼ばれる一歩の拡散モデルを提案します。このモデルは生成的特徴を識別的深度推定タスクに適応させるために設計されています。まず、生成的特徴によって導入されるテクスチャ詳細への過学習を軽減するために、高品質な意味論的特徴を取り入れてデノイジングネットワークの表現能力を向上させるFeature Alignmentモジュール(特徴アライメントモジュール)を提案します。次に、一歩の決定論的フレームワークにおける細かい詳細の不足に対処するために、低周波数構造と高周波数詳細を適応的にバランスさせるFourier Enhancementモジュール(フーリエ強化モジュール)を提案します。我々はこれらの2つのモジュールの潜在力を最大限に引き出すために二段階の訓練戦略を採用しています。第一段階では、Feature Alignmentモジュールを使用して全体的なシーン構造の学習に焦点を当てます。第二段階では、Fourier Enhancementモジュールを利用して視覚的な品質向上を目指します。これらの取り組みにより、当モデルは汎化能力和細部保存面において最先端の性能を達成し、様々なデータセットにおいて他の拡散ベースの手法よりも優れた結果を得ています。プロジェクトページは以下のURLでご覧いただけます: https://indu1ge.github.io/DepthMaster_page.