
要約
本稿では、統一されたフレームワーク内でインスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションを実行できる、新しいオープンボリューム型ユニバーサル画像セグメンテーション手法を提案する。本手法は、事前に学習されたCLIPモデルの密な特徴量を活用することで、膨大なパラメータの再学習を必要とせずに、そのモデルとシームレスに統合できる。我々のアプローチであるMasQCLIPは、CLIPモデルを用いた画像セグメンテーション手法を構築するにあたり、2つの新しい側面に注力している。第一に、既知クラス(seen classes)から未知クラス(novel classes)のマスクに対して情報を蒸留するための「学生-教師モジュール」の導入である。第二に、CLIPモデル内のクエリQに対するモデルパラメータの微調整プロセスの導入である。これらのシンプルかつ直感的な設計により、MasQCLIPは、オープンボリューム型インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションのすべてのタスクにおいて、従来手法を大きく上回る、最先端の性能を達成している。プロジェクトページは https://masqclip.github.io/ にて公開されている。