マスク認識型CLIP表現の学習によるゼロショットセグメンテーション

最近、事前学習された視覚言語モデルが、挑戦的なゼロショットセグメンテーションタスクの解決にますます利用されるようになっている。一般的なアプローチは、まずマスク候補を生成し、その後CLIPを用いてそれらを分類するという枠組みに従う。CLIPのゼロショット転移性能を維持するため、従来の手法では学習中にCLIPを固定(フリーズ)することが好まれてきた。しかし本論文では、CLIPが異なるマスク候補に対して感度が低く、同一画像のさまざまなマスク候補に対して類似した予測を出力する傾向があることを明らかにした。この感度の低さは、マスク候補の分類において多数の偽陽性を引き起こす要因となる。この問題の主な原因は、CLIPが画像レベルのラベルによる監視学習で訓練されていることに起因する。これを緩和するために、本研究ではシンプルでありながら効果的な手法、すなわち「マスク認識型ファインチューニング(Mask-aware Fine-tuning, MAFT)」を提案する。具体的には、任意の数の画像およびマスク候補を同時に処理できる「画像・候補CLIPエンコーダー(Image-Proposals CLIP Encoder, IP-CLIP Encoder)」を導入する。さらに、マスク認識損失と自己蒸留損失(self-distillation loss)を設計し、IP-CLIP Encoderのファインチューニングを実施することで、CLIPが異なるマスク候補に応答可能となる一方で、転移性能を損なわないようにする。このアプローチにより、真陽性が明確に浮き彫りになるマスク認識表現を効率的に学習できる。特に注目すべきは、MAFTが既存の多くの手法にスムーズに統合可能であり、ファインチューニング段階で新たなパラメータを追加せずに実現できることである。我々は、代表的なゼロショットベンチマーク上で広範な実験を実施した。MAFTを適用することで、最先端手法の性能は大幅に向上した:COCOではmIoUが50.4%(+8.2%)、Pascal-VOCでは81.8%(+3.2%)、ADE20Kでは8.7%(+4.3%)という結果が得られた。コードは以下のURLから公開されている:https://github.com/jiaosiyu1999/MAFT.git。