PrimeDepth:安定したDiffusion Preimageを用いた効率的なモノクロmaal深度推定

本研究は、ゼロショット単眼深度推定というタスクに取り組む。この分野における最近の進展として、Stable Diffusionのようなテキストから画像を生成する基盤モデル(Text-to-Image foundation models)を活用するアプローチが注目されている。基盤モデルは豊かな汎用的な画像表現を提供するため、少量の学習データで深度推定モデルに再構成可能であり、高精細な深度マップを予測し、優れた一般化性能を発揮することができる。しかしながら、これまでの実装は、基礎となる反復的ノイズ除去プロセスに起因し、テスト時における計算効率が極めて低いという課題を抱えていた。本研究では、このアイデアの異なる実装を提案し、テスト時における高速性を実現しつつ、拡散モデルに基づくアプローチの利点を維持あるいは向上させる「PrimeDepth」という手法を提示する。本研究の核心的なアイデアは、Stable Diffusionから単一のノイズ除去ステップを実行することで、豊かなが固定された(frozen)画像表現を抽出することである。この表現を「プレイメージ(preimage)」と呼ぶ。その後、このプレイメージは、下流タスクに投入される前に、アーキテクチャ上の誘導バイアス(inductive bias)を持つリファイナーネットワークに供給される。実験的に、PrimeDepthは最先端の拡散モデルベース手法Marigoldと比較して、2桁の速度向上を達成していることが確認された。さらに、困難なシナリオにおいてもよりロバストであり、定量的な性能面でもわずかに優れている。これにより、現在最も優れたデータ駆動型アプローチであるDepth Anythingとの性能ギャップが縮小された。Depth Anythingは依然として定量的に優れてはいるが、生成される深度マップの詳細度が低く、ラベル付きデータを20倍多く必要とするという課題がある。本研究のアプローチは、このDepth Anythingと相補的であるため、PrimeDepthとDepth Anythingの予測結果を単純に平均することで、両者を上回る性能を達成でき、ゼロショット単眼深度推定の新たな最良状態(state-of-the-art)を確立した。今後の展望として、データ駆動型アプローチも本研究のプレイメージを統合することで、さらなる性能向上が期待される。