
本研究は、画像レベルのラベルを用いて弱教師付きセマンティックセグメンテーション(WSSS)を解決するため、事前学習された基礎モデル(例:コントラスト型言語-画像事前学習モデルCLIP、Segment Anything Model(SAM))を活用することを目的としている。具体的には、CLIPとSAMを基盤とした粗いから細かい段階へのフレームワークを提案し、高品質なセグメンテーション初期値(セグメンテーションシード)の生成を実現する。本手法では、重みが固定されたCLIPを用いて、画像分類タスクとシードセグメンテーションタスクを同時に行うための、学習可能なタスク固有のプロンプト(prompt)2種類を導入する。さらに、各タスクに対してSAMを活用したシーディングモジュール(SAMS)を設計・適用し、それぞれ粗いまたは細かいシードマップを生成する。また、画像レベルのラベルを用いて監視するマルチラベルコントラスト損失と、生成された粗いシードマップを用いて監視するCAM活性化損失を新たに設計する。これらの損失関数により、プロンプトのみを学習対象とし、フレームワーク内で学習が必要な唯一の要素としている。プロンプトが学習されると、各画像と学習済みのセグメンテーション専用プロンプトをCLIPおよびSAMSモジュールに投入することで、高品質なセグメンテーションシードを生成する。これらのシードは、他の2段階型WSSS手法と同様に、汎用的なセグメンテーションネットワークの訓練に用いるための擬似ラベルとして機能する。実験の結果、本手法はPASCAL VOC 2012で最先端(SOTA)の性能を達成し、MS COCO 2014でも競争力ある結果を示した。コードは以下のURLから公開されている:https://github.com/HAL-42/FMA-WSSS.git。