単眼深度推定の精度向上に向けた深層学習技術について

画像の奥行きを推定することは、コンピュータビジョン分野における基本的な逆問題であり、観測された実際のシーンから無限の可能性で生成される2D画像から奥行き情報を取得します。畳み込みニューラルネットワーク(CNNs)の進歩により、構造的な特徴と空間的な画像情報を探索することが可能になり、単一画像からの奥行き推定(Single Image Depth Estimation: SIDE)は科学的および技術的革新の範囲内でしばしば注目を集めています。この概念は低コストでの実装と環境条件に対する堅牢性という利点を提供します。自動運転車両の文脈では、最先端のCNNが高品質な奥行きマップを生成することでSIDEタスクを最適化し、異なる場所での自律走行プロセスにおいてこれらのマップは不可欠です。しかし、このようなネットワークは通常、レーザースキャンによる光検出および距離測定(Light Detection and Ranging: LiDAR)から得られる疎でノイジーな奥行きデータによって監督され、高い計算コストがかかるため高性能グラフィックス処理ユニット(Graphic Processing Units: GPUs)が必要となります。そこで本研究では、実世界の自律走行に設計された新しい軽量かつ高速な監督型CNNアーキテクチャと革新的な特徴抽出モデルを提案します。また、効率的な表面法線モジュールと単純な幾何学的な2.5D損失関数を組み合わせてSIDE問題を解決する方法も導入します。さらに、複数のディープラーニング技術を取り入れることで革新を図ります。具体的には、密度化アルゴリズムや追加的な意味情報、表面法線情報、奥行き情報を使ってフレームワークを訓練します。本研究で紹介する手法は屋内および屋外環境におけるロボット応用に焦点を当てており、その結果は競争力があり公開されているNYU Depth V2およびKITTI Depthデータセット上で評価されています。