Mask-Adapter: オープンボキャブラリ分割におけるマスクの重要性

最近のオープンボキャブラリセグメンテーション手法では、マスクジェネレータを用いてセグメンテーションマスクを予測し、事前学習されたビジョン言語モデル(例:CLIP)を活用して、マスクプーリングを通じてこれらのマスクを分類しています。これらのアプローチは有望な結果を示していますが、マスク内のCLIP画像埋め込みをプーリングすることで正確なマスクがしばしば正確な分類結果を得られないという点は、直感に反しています。本論文では、マスクプーリングの性能制限を明らかにし、これらの課題に対処するための単純かつ効果的な方法であるMask-Adapterを提案します。提案したMask-Adapterは、提案マスクを直接使用するのではなく、提案マスクから意味的な活性化マップを抽出することで、より豊富なコンテキスト情報を提供し、マスクとCLIPとの整合性を確保します。さらに、我々はIoU(Intersection over Union)が類似している提案マスクが類似したCLIP埋め込みを得ることを促進するためのマスク一貫性損失も提案します。これによりモデルは予測されるマスクの変動に対する堅牢性が向上します。Mask-Adapterはプラグアンドプレイ形式でオープンボキャブラリセグメンテーション手法にシームレスに統合され、より正確な分類結果を提供します。複数のゼロショットベンチマークにおける広範な実験により、既存のいくつかの手法に対して提案されたMask-Adapterが有意な性能向上を達成することが示されました。特に注目すべきは、Mask-AdapterがSAMにも効果的に拡張され、いくつかのオープンボキャブラリセグメンテーションデータセットで印象的な結果を得ていることです。コードとモデルはhttps://github.com/hustvl/MaskAdapter で公開されています。