
要約
ドメイン適応型パンスペクティックセグメンテーションは、自然シーン理解における極端な少数ケース(ロングテール)を解決する有望なアプローチを提供する。従来の最先端手法は、タスク間の一貫性の確保、システムレベルの精密な最適化、および教師モデルの予測に対するヒューリスティックな改善によりこの課題に対処してきた。一方、本研究では、マスク変換器(mask transformer)が自身の予測不確実性を推定する優れた能力を活用する新たなアプローチを提案する。本手法は、パンスペクティック教師モデルの細粒度な信頼度を活用することで、ノイズの拡大を回避する。特に、マスク全体の信頼度を用いて損失関数を調整し、教師モデルの予測が不確実であるピクセルや、学生モデルが非常に自信を持っているピクセルにおける逆伝播を抑制する。標準ベンチマーク上での実験評価により、提案する選択手法が顕著な貢献をもたらすことが示された。SynthiaからCityscapesへのドメイン移行において、47.4のPQ(Panoptic Quality)を達成し、従来の最先端技術比で6.2ポイントの向上を記録した。ソースコードは、https://github.com/helen1c/MC-PanDA で公開されている。