7ヶ月前

概要

現在の単一画像深度推定手法は、実際の画像と深度のペアやステレオペアを用いた訓練データセットを使用していますが、これらのデータを取得することは容易ではありません。本研究では、合成画像と深度のペアおよび非対応の実際の画像を用いて訓練されたフレームワークを提案します。このフレームワークは、入力画像のリアリズムを向上させるための画像変換ネットワークと、その後に続く深度予測ネットワークから構成されています。重要なアイデアは、最初のネットワークが広範な入力変換器として機能し、合成画像または実際の画像を受け取り、理想的には最小限の修正で現実的な画像を生成することです。これは、訓練時の入力が実際の画像である場合には再構築損失を用い、合成画像である場合にはGAN損失を用いることで達成され、ヒューリスティックな自己正則化の必要性がなくなります。第二のネットワークは、合成画像と深度のペアに対するタスク損失で訓練され、さらにGAN損失が追加されて実際と合成の特徴分布を統一します。特に注目すべき点は、このフレームワークがエンドツーエンドで訓練できることであり、その結果として優れた性能が得られることで、初期の深層学習手法（リアルな対応データを使用）を超えることもあります。

ソースPDF