2ヶ月前

ProxyCLIP: プロキシ注意がオープンボキャブラリ分割のためのCLIPを改善する

Mengcheng Lan; Chaofeng Chen; Yiping Ke; Xinjiang Wang; Litong Feng; Wayne Zhang
ProxyCLIP: プロキシ注意がオープンボキャブラリ分割のためのCLIPを改善する
要約

オープンボキャブラリの意味分割には、モデルが視覚表現とオープンボキャブラリの意味ラベルを効果的に統合する必要があります。コントラスティブ言語画像事前学習(Contrastive Language-Image Pre-training, CLIP)モデルは、テキストから視覚概念を認識する点で優れていますが、位置特定能力の制限によりセグメントの一貫性に苦戦することがあります。一方、ビジョン基盤モデル(Vision Foundation Models, VFMs)は空間的に一貫した局所的な視覚表現を獲得することに長けていますが、意味理解において不足しています。本論文では、ProxyCLIPという革新的なフレームワークを提案します。このフレームワークはCLIPとVFMsの強みを調和させることで、高度なオープンボキャブラリの意味分割を可能にします。ProxyCLIPはVFMsからの空間特徴対応を利用し、プロキシアテンションとしてCLIPを補完することで、VFMsの堅牢な局所的一貫性を受け継ぎつつ、CLIPの優れたゼロショット転移能力を維持します。私たちは異なるVFMsに対応できるようにするために、適応的な正規化とマスキング戦略を提案します。注目に値する点は、ProxyCLIPが訓練不要の手法でありながら、8つのベンチマークにおける平均mean Intersection over Union (mIoU) を40.3から44.4へと大幅に改善したことです。これは空間的精度と意味的豊かさのギャップを埋める上で非常に高い効果性を持っていることを示しています。