
要約
単一画像からの深度推定を超えて、単眼の手がかりは、他の利用可能な深度手がかりを活用して精度を向上させるなどの、より広範な深度推論アプリケーションや設定において有用です。現在、異なる推論タスクと深度手がかりの組み合わせを持つ異なるアプリケーションは、それぞれ別々に訓練された専門的なネットワークを通じて解決されています。これに対して、我々は入力カラー画像からシーンの深度に対する確率分布を出力する多用途でタスク非依存の単眼モデルを提案します。これはパッチごとの条件付きVAE(Variational Autoencoder)からの出力をサンプル近似としています。我々はこの分布的な出力が、各アプリケーションのために再学習を行うことなく、異なる設定での様々な推論タスクに利用できることを示しています。多様なアプリケーション(深度補完、ユーザーガイドによる推定など)において、我々の共通モデルは高精度の結果をもたらし——特定のアプリケーションに依存した最先端手法と同等かそれ以上の性能を発揮します。