13日前

ZegCLIP:ゼロショット意味分割へのCLIPの適応に向けて

Ziqin Zhou, Bowen Zhang, Yinjie Lei, Lingqiao Liu, Yifan Liu
ZegCLIP:ゼロショット意味分割へのCLIPの適応に向けて
要約

最近、CLIPは二段階スキームを用いて画素レベルのゼロショット学習タスクに応用されている。このアプローチの基本的なアイデアは、まずクラスに依存しない領域提案(region proposals)を生成し、その後その切り出し領域をCLIPに投入して、画像レベルでのゼロショット分類能力を活用することである。この手法は有効ではあるが、提案生成に用いる画像エンコーダとCLIPに用いる画像エンコーダの2つのエンコーダが必要であり、パイプラインが複雑化し、計算コストが高くなるという課題がある。本研究では、CLIPのゼロショット予測能力を画像レベルから画素レベルへ直接拡張する、より単純かつ効率的な単段階アプローチを追求する。まず、CLIPから抽出したパッチ埋め込みとテキスト埋め込みの類似度を比較することで、セマンティックマスクを生成する単純な拡張をベースラインとして検討した。しかし、このアプローチは既に学習済みのクラスに過剰適合し、未学習クラスへの一般化能力が著しく低下する問題がある。この課題に対処するため、三つの簡潔かつ効果的な設計を提案し、これらがCLIPの本質的なゼロショット能力を顕著に保持し、画素レベルでの一般化性能を向上させることを明らかにした。これらの改良を統合した結果、効率的なゼロショットセマンティックセグメンテーションシステム「ZegCLIP」が構築された。3つの公開ベンチマーク上で広範な実験を行った結果、ZegCLIPは「誘導型(inductive)」および「伝達型(transductive)」の両ゼロショット設定において、最先端手法を大きく上回る性能を示した。さらに、二段階手法と比較して、本手法である単段階のZegCLIPは推論速度で約5倍の高速化を達成した。コードは https://github.com/ZiqinZhou66/ZegCLIP.git にて公開している。

ZegCLIP:ゼロショット意味分割へのCLIPの適応に向けて | 最新論文 | HyperAI超神経