マスク適応型CLIPを用いたオープンボリュームセマンティックセグメンテーション

オープンボリュームセマンティックセグメンテーションは、学習時に見られなかったテキスト記述に基づいて、画像をセマンティック領域に分割することを目的としている。近年の二段階アプローチでは、まずクラスに依存しないマスク提案を生成し、その後、CLIPなどの事前学習済み視覚言語モデルを用いて、マスクされた領域を分類する。本研究では、このアプローチの性能の限界が、マスク画像に対して十分な性能を発揮しない事前学習済みCLIPモデルにあると指摘する。これを解決するために、マスクされた画像領域とその対応するテキスト記述の集合上でCLIPをファインチューニングする手法を提案する。訓練データは、既存の画像キャプションデータセット(例:COCO Captions)を用いてマイニングし、CLIPを活用してマスクされた画像領域とキャプション内の名詞を対応付けることで構築する。固定クラスのより正確で手動でアノテーションされたセグメンテーションラベル(例:COCO-Stuff)と比較して、ノイズを含むが多様性に富んだ本手法のデータセットは、CLIPの汎化能力をより良く保持できることを確認した。さらに、モデル全体のファインチューニングに加えて、マスク画像内の「空白」領域を活用する手法として、我々が「マスクプロンプトチューニング」と呼ぶ方法を導入する。実験の結果、CLIPの重みを一切変更せずにマスクプロンプトチューニングを適用するだけで顕著な性能向上が得られ、完全にファインチューニングされたモデルの性能をさらに向上させることも可能である。特に、COCOで学習しADE20K-150で評価した場合、最良のモデルは29.6%のmIoUを達成し、従来の最先端手法よりも+8.5%高い性能を示した。本研究では、初めてオープンボリュームの汎用モデルが、データセット固有の適応なしに2017年の教師あり専門モデルと同等の性能を達成した。