3ヶ月前

意味分割における予測の転移と正則化

Yiheng Zhang, Zhaofan Qiu, Ting Yao, Chong-Wah Ngo, Dong Liu, Tao Mei

要約

セマンティックセグメンテーションは、画素レベルのアノテーションが付与された大量の画像を必要とする場合が多い。特に専門家によるラベル付けが極めて高コストであることを鑑み、近年の研究では、リアルな合成データ（例：コンピュータゲーム）とコンピュータ生成アノテーションを用いて訓練されたモデルが、実画像へと適応可能であることが示されている。しかし、実画像に対する予測に制約を設けない場合、合成データと実画像との間にある顕著なドメインミスマッチのため、モデルは合成データに過剰に適合（オーバーフィット）してしまう。本論文では、セマンティックセグメンテーション固有の内在的性質を新しく活用することで、モデル転移におけるこの問題を緩和する手法を提案する。具体的には、予測転移に向けた正則化として、内在的性質を制約条件として用いる「予測転移正則化器（Regularizer of Prediction Transfer; RPT）」を提案する。この制約は、画像生成過程の異なる段階において、パッチレベル、クラスタレベル、コンテキストレベルのセマンティック予測の一貫性を含む。転移プロセスはラベルフリーかつデータ駆動型であるため、モデル正則化に画像領域の部分集合を選択的に導入することで、予測のロバスト性を確保する。GTA5およびSYNTHIA（合成データ）で訓練されたモデルをCityscapesデータセット（都市街路シーン）へ転移する際の有効性を検証するため、広範な実験を実施した。RPTは、複数のセマンティックセグメンテーションニューラルネットワークに制約を導入した場合、一貫した性能向上を示した。特に注目すべきは、RPTを敵対的学習に基づくセグメンテーションフレームワークに統合した場合、これまでに報告された最高性能を達成した点である。GTA5からCityscapesへの転移ではmIoU 53.2％、SYNTHIAからCityscapesへの転移ではmIoU 51.7％を達成した。