
非監督ドメイン適応(UDA)を用いたシーンセグメンテーションは、ソースの合成データから得られた知識を実世界のターゲットデータに転送することができ、これによりターゲットドメインでの手動ピクセルレベルアノテーションの必要性が大幅に減少します。ドメイン間で不変な特徴学習を促進するために、既存の手法では通常、単純にピクセルをコピーして貼り付けることでソースドメインとターゲットドメインのデータを混在させます。このような単純な手法は一般的に最適ではなく、混在したレイアウトが実世界のシナリオに対応しているかどうかを考慮していないためです。実世界のシナリオには固有のレイアウトがあります。私たちは、歩道、建物、空などのセマンティックカテゴリが相対的に一貫した深度分布を持つこと、そして深度マップで明確に区別できることに注目しました。この観察に基づいて、我々は深度情報を活用してカテゴリを混在させ、セグメンテーションと深度学習という2つの補完的なタスクをエンドツーエンドで促進するための深度認識フレームワークを提案します。特に、このフレームワークには深度ガイドコンテキストフィルター(DCF)によるデータ拡張とクロスタスクエンコーダによるコンテキスト学習が含まれています。DCFは実世界のレイアウトを模擬し、クロスタスクエンコーダはさらに2つのタスク間で補完的な特徴量を適応的に融合します。また、いくつかの公開データセットでは深度アノテーションが提供されていないことに注意が必要です。そのため、我々は市販の深度推定ネットワークを使用して疑似深度を生成しています。広範囲な実験結果から、本研究で提案された手法は疑似深度を使用してもGTA to Cityscapes(77.7 mIoU)およびSynthia to Cityscapes(69.3 mIoU)という2つの広く使用されているベンチマークにおいて競争力のある性能を達成することが示されました。