2ヶ月前

遮蔽による自己監督単一視点深度推定の改善

Schellevis, Maarten

要約

単一視点深度推定モデルは、ビューシンセシスを監督信号として用いる自己教師ありのエンドツーエンドアプローチにより、動画映像から訓練することができます。このフレームワークでは、深度とカメラの動きを予測し、時系列的に隣接するフレームから目標となるビデオフレームを再構成することに基づく損失関数を使用します。この文脈において、オクルージョン（occlusion）とは、目標フレームで観測できるが画像再構成に使用されるフレームでは観測できないシーンの部分を指します。画像再構成は隣接するフレームからのサンプリングに基づいているため、オクルージョンによって影響を受けた領域は定義上サンプリングされず、再構成されたオクルージョン領域が監督信号を汚す原因となります。以前の研究（arXiv:1806.01260）では、各ピクセル位置で最小の誤差を持つ再構成のみが損失に含まれるように、再構成誤差に基づいてオクルージョンを処理していました。本研究では、訓練中にオクルージョンによって影響を受けた領域のみを無視することで深度推定モデルの性能向上が得られるかどうかを検討しています。本研究では、訓練中にオクルージョンによって再構成不可能な領域を特定して無視するために使用される「オクルージョンマスク」を導入します。オクルージョンマスクは完全に予測された深度情報に基づいて生成されます。また、2つの新しい損失関数の定式化を提案し、これらにはオクルージョンマスクが組み込まれています。arXiv:1806.01260 の方法と実装が我々の修正の基礎となり、また実験における基準となっています。我々は以下のことを示しました。(i) 損失関数にオクルージョンマスクを取り入れることで、KITTIベンチマークでの単一画像深度推定モデルの性能が向上します。(ii) 誤差に基づいて再構成を選択する損失関数は、物体運動による一部のリプロジェクション誤差を無視することができます。