
要約
我々は、複数の画像翻訳(image translation)、アンサンブル学習、自己教師学習を統合した一貫性のあるアプローチとして、教師なしドメイン適応(Unsupervised Domain Adaptation: UDA)戦略を提案する。本研究では、ラベル付きの合成データとラベルなしの実世界データを用いてセマンティックセグメンテーションモデルを学習し、最終的に実世界データに対して良好な性能を発揮することを目的とする、UDAにおける標準的なタスクに焦点を当てる。複数の画像翻訳を活用する利点を最大限に引き出すために、3つの分類器が異なる画像翻訳からの特徴量を入力として予測を行うアンサンブル学習アプローチを提案する。各分類器は独立して学習を行うことで、その出力をスパースな多項ロジスティック回帰(sparse Multinomial Logistic Regression)により統合する。この回帰層は「メタラーナー(meta-learner)」と呼ばれるが、自己教師学習における仮ラベル(pseudo label)生成時にバイアスを低減し、各分類器の寄与度を考慮することでモデルの汎化性能を向上させる役割を果たす。本手法は、GTA VおよびSynthiaからCityscapesへのドメイン適応という標準的なUDAベンチマークにおいて評価され、平均交差率(mean Intersection over Union, mIoU)において最先端の性能を達成した。さらに、本手法の有効性を裏付けるため、包括的なアブレーション実験の結果を報告する。