
要約
単眼深度推定において、実データの真値(ground truth)を取得することは容易ではなく、そのため一般的に教師あり合成データを用いたドメイン適応手法が採用される。しかし、実データからの教師信号が欠如しているため、依然として大きなドメインギャップが生じる可能性がある。本論文では、実データから信頼性の高い疑似真値(pseudo ground truths)を生成することで、直接的な教師信号を提供するドメイン適応フレームワークを提案する。具体的には、疑似ラベル生成のための2つのメカニズムを提案する。1つ目は、同一コンテンツだが異なるスタイルを持つ画像に対して深度推定の整合性を測定することで得られる2次元ベースの疑似ラベルであり、2つ目は、点群補完ネットワークを用いて3次元空間における深度値を補完する3次元認識型疑似ラベルである。このアプローチにより、シーンの構造情報をより豊かに捉え、より信頼性の高い疑似ラベルの生成と精緻化が可能となる。実験の結果、本手法は様々な設定(訓練時にステレオペアを用いる場合を含む)において深度推定性能の向上を示した。さらに、実世界データセットにおいて、複数の最先端の非教師付きドメイン適応手法と比較しても、本手法は優れた性能を発揮した。