事前学習された視覚言語モデルを使用したオープンボキャブラリ意味分割のシンプルなベースライン

最近、オープンボキャブラリー画像分類におけるビジョン言語事前学習の成果が著しく、モデルがそのカテゴリの追加のアノテーション付き画像を見ることなく任意のカテゴリを分類できることが示されました。しかし、オープンボキャブラリーレコグニションをより広範な視覚問題に適用する方法はまだ明確ではありません。本論文では、既存の事前学習済みビジョン言語モデル(CLIP)を基盤として、オープンボキャブラリーセマンティックセグメンテーションに取り組んでいます。ただし、セマンティックセグメンテーションとCLIPモデルは異なる視覚的な粒度で動作します。すなわち、セマンティックセグメンテーションはピクセルレベルで処理を行う一方、CLIPは画像全体で動作します。この粒度の違いを解消するために、一般的な一段階FCNベースのフレームワークを使用せず、二段階セマンティックセグメンテーションフレームワークを提唱します。第一段階では汎用的なマスク提案を抽出し、第二段階では第一段階で生成されたマスク付き画像領域に対して、画像ベースのCLIPモデルを利用したオープンボキャブラリー分類を行います。実験結果から、この二段階フレームワークはCOCO Stuffデータセットでのみ訓練され他のデータセットで微調整せずに評価された場合でもFCNよりも優れた性能を達成することが示されました。さらに、このシンプルなフレームワークはゼロショットセマンティックセグメンテーションにおける従来の最先技術を大幅に上回っています:Pascal VOC 2012データセットでは+29.5 hIoU(平均交差率)、COCO Stuffデータセットでは+8.9 hIoUです。その単純さと強力な性能により、今後の研究を促進するためのベースラインとしてこのフレームワークが役立つことを期待しています。コードは公開されており、以下のURLからアクセスできます:~\url{https://github.com/MendelXu/zsseg.baseline}。