Command Palette
Search for a command to run...
自己教師付きモノクロmaal深度推定の一般化に関する深掘り分析
自己教師付きモノクロmaal深度推定の一般化に関する深掘り分析
Jinwoo Bae Sungho Moon Sunghoon Im
概要
最近、自己教師付き単眼深度推定は広く研究されている。多くの研究は、KITTIなどのベンチマークデータセットにおける性能向上に注力しているが、汎化性能に関する実験は限定的である。本論文では、単眼深度推定の汎化性能に向けたバックボーンネットワーク(例えばCNN、Transformer、およびCNN-Transformerハイブリッドモデル)の特性を調査する。まず、ネットワークの学習時に一度も見られなかった多様な公開データセット上で最先端モデルの性能を評価する。次に、自ら生成したテクスチャシフト済みデータセットを用いて、テクスチャ偏りと形状偏りの表現がもたらす影響を検証する。その結果、Transformerは強い形状偏りを示す一方で、CNNは強いテクスチャ偏りを示すことが明らかになった。さらに、形状偏りを持つモデルがテクスチャ偏りを持つモデルに比べて、単眼深度推定において優れた汎化性能を示すことも確認した。これらの観察に基づき、Transformerによる形状偏りの強化と、多レベル表現の適応的融合によるTransformerの局所性不足の補完を目的として、新たなCNN-Transformerハイブリッドネットワーク「MonoFormer」を提案する。MonoFormerの設計意図は、Transformerの形状偏りを強化しつつ、その局所性の弱さを多段階適応的特徴融合モジュールによって補完することにある。広範な実験により、提案手法が多数の公開データセットにおいて最先端の性能を達成することが示された。また、競合手法の中で最も優れた汎化能力を示した。