2ヶ月前

高品質なマスク調整がオープンボキャブラリ分割に重要である

Quan-Sheng Zeng; Yunheng Li; Daquan Zhou; Guanbin Li; Qibin Hou; Ming-Ming Cheng
高品質なマスク調整がオープンボキャブラリ分割に重要である
要約

オープンボキャブラリーの画像セグメンテーションは、マスクジェネレーターとコントラスティブ言語画像事前学習(Contrastive Language-Image Pre-training: CLIP)などのビジョン・言語モデルの相乗効果によって進歩してきました。従来のアプローチでは、学習中に生成されたマスクの特徴をテキスト埋め込みと合わせることに焦点を当てています。本論文では、低品質な生成マスクに依存すると、地域表現におけるビジョンと言語の整合性が弱まることを観察しました。この知見に基づき、私たちは新しい微調整フレームワークであるMaskCLIP++を提案します。これは、生成されたマスクではなく真実値マスクを使用することで、CLIPのマスク分類能力を向上させるものです。画像セグメンテーションデータセットのマスク注釈の多様性が限られているため、微調整時に一貫性整合原則を取り入れることを提案します。これにより、微調整データセットへのカテゴリバイアスが軽減されます。低コストで微調整した後、MaskCLIP++はマルチドメインデータセットでのマスク分類性能を大幅に向上させました。以前の最先端のマスクベースオープンボキャブラリーセグメンテーション手法で使用されているマスクジェネレーターと組み合わせることで、A-847, PC-459, A-150, PC-59, PAS-20データセットにおいてそれぞれ+1.7, +2.3, +2.1, +3.1, +0.3 mIoU(平均交差率)の性能向上を達成しました。コードは以下のURLから入手可能です:https://github.com/HVision-NKU/MaskCLIPpp

高品質なマスク調整がオープンボキャブラリ分割に重要である | 最新論文 | HyperAI超神経