17日前

文書埋め込みを用いた多ドメインセマンティックセグメンテーションのスケーリング

Wei Yin, Yifan Liu, Chunhua Shen, Baichuan Sun, Anton van den Hengel
文書埋め込みを用いた多ドメインセマンティックセグメンテーションのスケーリング
要約

本研究では、教師あり学習の最先端性能をゼロショット設定下でも達成するセマンティックセグメンテーションのアプローチを提案する。この手法により、各主要なセマンティックセグメンテーションデータセットにおいて、それらのデータセットに学習を行わずに、教師あり手法と同等の結果を得ることができる。この成果は、各クラスラベルをそのクラスを説明する短い段落のベクトル表現(埋め込み)に置き換えることで実現される。このアプローチの汎用性と簡潔さにより、異なるドメインから得られた複数のデータセットを、クラスラベルや意味が異なる状況下でも統合可能となる。統合されたセマンティックセグメンテーションデータセットは200万枚以上の画像を含み、このデータセットで学習したモデルは、7つのベンチマークデータセットにおいて、それらのデータセットからの画像を一切使用せずに、最先端の教師あり手法と同等の性能を達成する。さらに、標準的なセマンティックセグメンテーションデータセット上でモデルをファインチューニングすることで、NYUD-V2とPASCAL-Contextにおいて、それぞれ60%および65%のmIoUという、従来の最先端教師ありセグメンテーション手法を大幅に上回る性能を達成した。言語埋め込みの類似性に基づく本手法は、未学習のラベルに対してもセグメンテーションが可能である。広範な実験により、未観測の画像ドメインや未観測のラベルへの強力な一般化能力が示され、深度推定やインスタンスセグメンテーションといった下流タスクにおいても、顕著な性能向上が可能であることが確認された。