11日前

FreeSeg:解釈可能な対照的言語-画像事前学習からのフリーなマスクによるセマンティックセグメンテーション

Yi Li, Huifeng Yao, Hualiang Wang, Xiaomeng Li
FreeSeg:解釈可能な対照的言語-画像事前学習からのフリーなマスクによるセマンティックセグメンテーション
要約

完全教師ありセマンティックセグメンテーションは、密なマスク(dense masks)を用いて学習するため、閉じたクラス(closed set)においては膨大なアノテーションコストがかかる。本論文では、ピクセルレベルのアノテーションを一切用いずに、自然言語を監視信号として用いることで、オープンワールドセグメンテーションを実現する。提案するフレームワークをFreeSegと呼ぶ。FreeSegでは、事前学習モデルの原始的な特徴マップから自由にマスクを取得できる。ゼロショットまたはオープンセットセグメンテーションと比較して、FreeSegはいかなるアノテーション付きマスクも必要とせず、クラスに依存しない非教師ありセグメンテーションをはるかに超える広範なカテゴリを予測可能である。具体的には、FreeSegは解釈可能な対比的言語・画像事前学習(Interpretable Contrastive Language-Image Pretraining: ICLIP)の画像-テキスト類似度マップ(Image-Text Similarity Map: ITSM)から無料のマスクを取得する。本研究の主な貢献は、密なICLIPにおける平滑化された最小プーリング(smoothed min pooling)、およびセグメンテーションに向けた部分ラベル戦略とピクセル戦略の導入である。さらに、FreeSegはグループ化やクラスタリング、リトリーバルといった複雑な設計を一切必要とせず、極めてシンプルな構成である。単純さに加え、FreeSegの性能は従来の最先端手法を大きく上回っており、例えばVOCデータセットにおいて、同じ設定下でmIoUが13.4%も高い結果を達成している。

FreeSeg:解釈可能な対照的言語-画像事前学習からのフリーなマスクによるセマンティックセグメンテーション | 最新論文 | HyperAI超神経