CLIPはまた効率的なセグメンテーションモデルである:弱教師付きセマンティックセグメンテーションのためのテキスト駆動型アプローチ

画像レベルのラベルを用いた弱教師付きセマンティックセグメンテーション(WSSS)は、挑戦的な課題である。主流のアプローチは多段階フレームワークに従うが、高い学習コストを伴う。本論文では、追加の学習を一切行わずに、画像レベルのラベルのみを用いてCLIP(Contrastive Language-Image Pre-training)モデルのゼロショット能力を活用し、異なるカテゴリの領域を局所化する可能性を検討する。CLIPから高品質なセグメンテーションマスクを効率的に生成するため、本研究では新たなWSSSフレームワーク「CLIP-ES」を提案する。本フレームワークは、CLIPの特性を活かすために3つの段階すべてを独自の設計で改善している。1)GradCAMにソフトマックス関数を導入し、CLIPのゼロショット能力を活用して、非ターゲットクラスや背景による混同を抑制する。同時に、CLIPの性能を最大限に引き出すために、WSSS設定下でのテキスト入力の再検討を行い、2つのテキスト駆動型戦略を設計した:「シャープネスに基づくプロンプト選択」と「同義語統合」。2)CAMの精緻化段階を簡素化するため、CLIP-ViTsに内蔵されたマルチヘッド自己注意(MHSA)を活用した、リアルタイムでクラスに依存する注意ベースの類似度(CAA)モジュールを提案する。3)CLIPによって生成されたマスクを用いて最終的なセグメンテーションモデルを学習する際には、信頼度に応じた損失(CGL)を導入し、信頼度の高い領域に注目させる。本手法であるCLIP-ESは、Pascal VOC 2012およびMS COCO 2014の両データセットで最先端(SOTA)の性能を達成しつつ、従来手法に比べて偽マスク生成に要する時間はわずか10%にまで削減した。コードは以下のURLから公開されている:https://github.com/linyq2117/CLIP-ES。