MSeg:マルチドメインセマンティックセグメンテーションのためのコンポジットデータセット

我々は、異なるドメインからなるセマンティックセグメンテーションデータセットを統合した複合データセット「MSeg」を提案する。単純に各データセットを統合すると、分類体系やアノテーション手法の不一致により性能が著しく低下する。そこで、8万枚以上の画像に含まれる22万以上ものオブジェクトマスクを再ラベリングすることで、分類体系を統一し、ピクセル単位のアノテーションを整合化した。このプロセスには、アノテーターの総作業時間として1.34年以上を要した。その結果得られた複合データセットにより、複数ドメインにまたがる環境でも効果的に動作する単一のセマンティックセグメンテーションモデルを学習可能となり、訓練時に未見のデータセットにも一般化する能力を獲得できるようになった。本研究では、ゼロショットクロスデータセット転移をベンチマークとして採用し、モデルのロバスト性を体系的に評価した。その結果、本研究の貢献を反映せずに個別データセットで学習するか、単純にデータセットを混合する場合と比較して、MSegで学習したモデルははるかに高いロバスト性を示した。MSegで学習したモデルは、訓練時にWildDashデータに一切アクセスせずに、WildDash-v1のロバストセマンティックセグメンテーションランキングで首位を獲得した。さらに、2020年のRobust Vision Challenge(RVC)において、極端な一般化能力を検証する実験を実施した。RVCのデータセットのうち7つから3つしかMSegの学習データセットに含まれていないが、特に評価用の分類体系はより詳細かつ異なるものであった。驚くべきことに、本モデルは競争力ある性能を発揮し、2位という成績を収めた。ロバストで効率的かつ包括的なシーン理解という最終目標にどれほど近づいているかを評価するため、セマンティックセグメンテーションにとどまらず、インスタンスセグメンテーションおよびパノプティックセグメンテーションモデルも本データセットを用いて学習した。また、解像度や計算効率といった様々なエンジニアリング設計の選択肢や評価指標についても検証を行った。現時点では、我々のモデルはこの壮大な目標からまだ遠いが、本研究の包括的な評価は、将来の進展にとって不可欠である。本研究で開発したすべてのモデルおよびコードを、コミュニティに公開する。