
視覚的曇り環境においても良好な一般化性能を発揮するシーン意味の学習は、自律走行などの安全に直結する応用において極めて重要である。従来の手法は、カリキュラムドメイン適応モデルを学習するため、ラベル付きの明瞭画像と曇り画像の両方を必要としている。しかし、これらの手法は訓練段階で見ていた特定の曇り環境にのみ一般化可能であり、都市シーンのスタイルや曇りの質感は多様であるため、実際の運用環境においては限界がある。本論文では、訓練段階で曇り画像を一切使用せずに、ドメイン一般化(domain generalization)の枠組みのもとで、あらゆる未観測の曇りシーンに良好に一般化可能なシーンセグメンテーションモデルの学習を提案する。我々は、曇り環境に良好に一般化可能な理想的なセグメンテーションモデルが、同時にコンテンツの強化、都市シーンスタイルの非相関化、および曇りスタイルの非相関化を実現する必要があると主張する。コンテンツ(例:シーンの意味情報)は低周波成分に多く含まれるのに対し、都市シーンのスタイルや曇りの質感は高周波成分に多く含まれるという事実を踏まえ、上記3つの目的を「分割統治(divide-and-conquer)」のアプローチで実現するため、新たな双方向ウェーブレットガイド(Bi-directional Wavelet Guidance, BWG)機構を提案する。ハールウェーブレット変換を活用することで、低周波成分はコンテンツ強化用の自己注意機構に集中させ、高周波成分はスタイルおよび曇りの非相関化を目的としてスタイル・曇り用の自己注意機構へと分離する。このBWG機構は、既存のマスクレベルTransformerベースのセグメンテーションパイプラインに学習可能な形で統合されている。本手法は、4つの曇りシーンセグメンテーションデータセットを用いた大規模な実験により、様々な設定下で検証された。その結果、従来の直接教師付き手法、カリキュラムドメイン適応法、およびドメイン一般化手法と比較して、顕著な性能向上が達成された。ソースコードは以下のGitHubリポジトリで公開されている:https://github.com/BiQiWHU/BWG。