
視差情報が欠如する状況下では、学習ベースの単一画像深度推定(SIDE)モデルは、画像内の陰影および文脈的情報に大きく依存する。このシンプルさは魅力的ではあるが、その一方で、多様で大規模なデータセットを用いた学習が必須であり、このようなデータの収集は実際には困難である。近年の研究では、事前学習された基礎モデル(例:CLIP)から得られる埋め込み(embedding)を活用することで、複数の応用においてゼロショット転移性能が向上することが示されている。本研究では、この知見に着想を得て、事前学習済みのViT(Vision Transformer)モデルから生成されるグローバルな画像事前知識(global image priors)を用いて、より詳細な文脈情報を提供することを検討した。我々は、大規模データセットで事前学習されたViTモデルから得られる埋め込みベクトルが、通常の「擬似画像キャプションを生成し、その後CLIPに基づくテキスト埋め込みを用いる」というアプローチよりも、SIDEタスクに必要な関連情報をより豊かに捉えていると主張する。この考えに基づき、ViT埋め込みを条件として用いる拡散モデル(diffusion backbone)を採用した新しいSIDEモデルを提案する。本モデルは、NYUv2データセットにおいて、現在のSOTA(VPD)のAbs Rel誤差0.069に対し、0.059(14%の改善)を達成し、SIDE分野における新たなSOTAを樹立した。また、KITTIデータセットでは、Sq Rel誤差0.139(2%の改善)を達成し、現在のSOTA(GEDepth)の0.142を上回った。NYUv2で学習されたモデルを用いたゼロショット転移において、Sun-RGBD、iBims1、DIODE、HyperSimの各データセットにおいて、NeWCRFsに比べて平均相対改善率が(20%、23%、81%、25%)を達成したのに対し、ZoeDepthは(16%、18%、45%、9%)であった。本研究のプロジェクトページは、https://ecodepth-iitd.github.io にて公開されている。