スタイル・ハリューシネーションを伴うデュアル一貫性学習によるドメイン一般化セマンティックセグメンテーション

本稿では、合成データのみを用いて未観測の現実世界シーンに対しても頑健なモデルを学習することを目的とした、合成データから現実世界へのドメイン一般化セマンティックセグメンテーションの課題に着目する。合成データと現実世界データの間には大きなドメインシフトが存在し、その主な要因として、ソース環境変化の制限および合成データと現実データ間の分布ギャップが挙げられる。これらは、未観測の現実世界シーンにおけるモデル性能を著しく制限する要因となっている。本研究では、このようなドメインシフトに対処するため、スタイル・ハルシネーション・デュアル一貫性学習(Style-HAllucinated Dual consistEncy learning, SHADE)フレームワークを提案する。具体的には、SHADEは2つの一貫性制約、すなわちスタイル一貫性(Style Consistency, SC)と逆行的一貫性(Retrospection Consistency, RC)に基づいて構築されている。SCは、スタイル多様なサンプル間で一貫した表現を学習することを促進し、ソース状況の多様性を拡張する。一方、RCは現実世界の知識を活用して、モデルが合成データに過剰に適合するのを防ぎ、合成データと現実世界データの間での表現の一貫性を大きく維持する。さらに、一貫性学習に不可欠なスタイル多様なサンプルを生成するための新しいスタイルハルシネーションモジュール(Style Hallucination Module, SHM)を導入する。SHMはソース分布から基本的なスタイルを選定し、学習中にモデルが動的に多様かつ現実的なサンプルを生成可能にする。実験の結果、SHADEは、単一ソース設定および複数ソース設定において、3つの現実世界データセットの平均mIoUにおいて、それぞれSOTA(最先端)手法を5.05%および8.35%上回る顕著な性能向上を達成した。