2ヶ月前
Open-Vocabulary Universal Image Segmentation with MaskCLIP オープン・ボキャブラリー普遍的画像セグメンテーションにおけるMaskCLIPの利用
Zheng Ding; Jieke Wang; Zhuowen Tu

要約
本論文では、新興のコンピュータビジョンタスクであるオープンボキャブラリ普遍画像セグメンテーションに取り組んでいます。このタスクは、推論時に任意のテキストベースの説明に対して、意味/インスタンス/パノプティックセグメンテーション(背景の意味ラベリング + 前景のインスタンスセグメンテーション)を実行することを目指しています。まず、ファインチューニングやディスティレーションを行わずに事前学習済みのCLIPモデルを直接採用して基準方法を構築しました。次に、MaskCLIPというトランスフォーマーに基づくアプローチを開発しました。MaskCLIPにはMaskCLIPビジュアルエンコーダが搭載されており、これはエンコーダのみのモジュールで、事前学習済みのViT CLIPモデルとマスクトークンをシームレスに統合し、意味/インスタンスセグメンテーションとクラス予測を行うことができます。MaskCLIPは、MaskCLIPビジュアルエンコーダ内で効率的かつ効果的に事前学習済みの部分的/密集的なCLIP特徴量を利用することを学びます。これにより時間のかかる教師-生徒訓練プロセスを回避できます。MaskCLIPはADE20KおよびPASCALデータセットにおいて、意味/インスタンス/パノプティックセグメンテーションに関する以前の手法を上回っています。オンラインでのカスタムカテゴリを使用したMaskCLIPの定性的な例示も示しています。プロジェクトウェブサイト: https://maskclip.github.io.