
要約
単眼深度推定は、その問題の不適切定義(ill-posed)な性質により、依然として未解決の課題である。深層学習に基づく手法は広く研究されており、単一のRGB入力画像内に意味あるかつ堅牢な深度情報が乏しいという制約にもかかわらず、妥当な深度推定精度を達成できることが実証されている。一方、位相マスクおよび振幅マスクを用いた符号化開口(coded aperture)手法は、焦点外度に依存する点像分布関数(Point Spread Function: PSF)を用いて2次元画像内に強力な深度情報(深度勾配)を符号化するが、その代償として画像品質が低下するという課題がある。本論文では、回折回転による深度推定のための新しいエンドツーエンド学習アプローチを提案する。この手法では、焦点外度に応じて回転する点像分布関数(Rotating Point Spread Function: RPSF)を生成する位相マスクと、深度推定ニューラルネットワークの重みを同時に最適化する。その実現のため、開口マスクの微分可能な物理モデルを導入し、カメラの画像生成プロセスを高精度にシミュレートする。本手法は、従来の方法と比較して、はるかに単純なモデル構造と少ない学習データで実現可能でありながら、屋内ベンチマークにおける単眼深度推定タスクにおいて優れた性能を示す。さらに、画像劣化の問題に対処するため、非盲目的かつ非一様な画像復元モジュールを組み込み、RPSFに起因するぼけた画像から、すべての領域が合焦した鮮鋭な画像を復元することを可能にしている。