
近年の深層意味セグメンテーション(Deep Semantic Segmentation)手法の多くは、畳み込みニューラルネットワーク(CNN)に基づく強力な階層的表現モデルを用いても、大きな一般化誤差を示す問題を抱えている。これは、訓練データの限界および訓練データセットとテストデータセット間の分布ギャップ(distribution gap)が原因であると考えられる。本論文では、意味セグメンテーションにおけるドメイン適応(domain adaptation)を目的として、マルチレベル自己教師学習(multi-level self-supervised learning, MLSL)モデルを提案する。本手法は、物体(および文脈下での大部分の「ストア」(stuff))がその位置にかかわらず一貫したラベルを持つべきであるという直感に基づき、ベースモデルを用いて複数の部分画像をセグメンテーションし、それらを統合する戦略を設計することで、空間的に独立かつ意味的に一貫性のある(Spatially Independent and Semantically Consistent, SISC)擬似ラベルを生成する。さらに、潜在空間レベルでソースドメインとターゲットドメインのグローバルな文脈の類似性を捉えることで、画像レベルの擬似弱ラベル(Pseudo Weak Labels, PWL)を計算し、ドメイン適応をガイドする。これにより、画像内の特定のドメインカテゴリ(たとえば小物体など)のピクセル数が極めて少ない場合でも、潜在空間が有効な表現を学習できるよう支援する。提案手法であるマルチレベル自己教師学習(MLSL)は、従来の最先端手法(自己教師学習または敵対的学習を含む)を上回る性能を達成した。具体的には、設定を同一に保った状態でMLSLを採用した場合、GTA-VからCityscapesへのドメイン適応においてmIoUで5.1%の向上、SYNTHIAからCityscapesへの適応においては4.3%の向上を達成し、既存の最先端手法を上回った。