6ヶ月前

概要

単眼深度推定器は、高精度のレーザースキャンやその他の真値データの必要性を回避するため、ステレオ視覚データを用いたさまざまな形態の自己教師学習（self-supervision）によって訓練可能である。しかし、その欠点として、自己教師学習で用いられる光度再投影損失（photometric reprojection losses）は通常、複数の局所最適解（local minima）を有するという問題がある。これら真値の代替として一見妥当に見える解は、回帰ネットワークが学習する内容を制限し、品質が限定的な深度マップの予測を引き起こす原因となる。代表的な例として、細い構造物周辺の深度不連続性は、現在の最先端手法においてしばしば誤って推定される。本研究では、ステレオベースの自己教師学習による深度推定における曖昧な再投影問題に着目し、その影響を軽減するための「Depth Hints（深度ヒント）」を提案する。Depth Hintsは、単純な市販のステレオアルゴリズムから得られる補完的な深度推定値である。これらのヒントは既存の光度損失関数を強化し、ネットワークがより良い重みを学習するように導く。本手法は追加データを必要とせず、またヒントが常に正しいと仮定する必要はない。実験の結果、複数の最先端のステレオから自己教師学習を行うモデルの訓練において、本手法が顕著な性能向上をもたらすことが示された。これは、私たち自身のモデルに限らず、他のモデルにも適用可能である。さらに、他の優れた実践手法と組み合わせることで、KITTIベンチマークにおいて最先端の深度推定結果を達成した。

ソースPDF