11日前
ステレオベース深度推定における深層学習技術に関するサーベイ
Hamid Laga, Laurent Valentin Jospin, Farid Boussaid, Mohammed Bennamoun

要約
RGB画像からの深度推定は、長年にわたり未定義問題(ill-posed problem)とされてきた課題であり、コンピュータビジョン、グラフィックス、機械学習の各分野において数十年にわたり研究が行われてきた。既存の技術の中でも、人間の両眼視覚系との強い関連性から、ステレオマッチングは文脈上最も広く用いられている手法の一つである。従来のステレオベース深度推定は、複数の画像間で手作業で設計された特徴量をマッチングするアプローチによって行われてきた。しかし、膨大な研究が重ねられてきたにもかかわらず、これらの従来手法は、高密度のテクスチャ領域、広範な均一領域、およびオクルージョン(隠蔽)が発生する状況では依然として性能に課題を抱えている。こうした状況を受けて、さまざまな2Dおよび3Dビジョン問題において顕著な成果を上げてきた深層学習の進展に触発され、ステレオベース深度推定における深層学習の応用に対する関心が急速に高まり、2014年から2019年の間にこの分野で150本以上の論文が発表されている。この新しい世代の手法は、性能面で飛躍的な進歩を示しており、自動運転や拡張現実(AR)などの応用を可能にしている。本稿では、こうした急速に発展している研究分野について包括的な調査を行い、最も一般的に用いられるパイプラインを要約するとともに、それぞれの利点と限界を議論する。これまでの成果を振り返りつつ、今後の深層学習に基づくステレオ深度推定研究がどのような方向性を示すかについても考察する。