
要約
ゼロショット意味セグメンテーション(ZS3)は、訓練段階で一度も登場しなかった新しいカテゴリのオブジェクトをセグメンテーションすることを目的としています。従来の手法は、ZS3をピクセルレベルのゼロショット分類問題として定式化し、テキストのみで事前学習された言語モデルを活用して、既知のカテゴリから未知のカテゴリへと意味知識を転移しています。このアプローチは単純ですが、画像とテキストのペアで事前学習されたことが多い視覚言語モデル(VLM)を効果的に統合する能力に限界があります。一方で、人間がしばしばセグメントレベルで意味ラベル付けを行うことから着想を得て、ZS3を以下の2つのサブタスクに分離する新しいアプローチを提案します:1)カテゴリに依存しないグループ化タスク(ピクセルをセグメントにグループ化する)、2)セグメントレベルでのゼロショット分類タスク。前者のタスクはカテゴリ情報に依存せず、未知のカテゴリに対しても直接的にピクセルのグループ化に転移可能である一方、後者のタスクはセグメント単位で実行され、画像とテキストのペアで事前学習された大規模な視覚言語モデル(例:CLIP)をZS3に自然に活用する手段を提供します。この分離型定式化に基づき、ZegFormerと名付けたシンプルかつ効果的なゼロショット意味セグメンテーションモデルを提案します。本モデルは、PASCAL VOCにおいて未知クラスのmIoUで22ポイント、COCO-Stuffでは3ポイントの大幅な性能向上を達成し、既存手法を大きく上回りました。コードはhttps://github.com/dingjiansw101/ZegFormerにて公開予定です。