
要約
対照的言語-画像事前学習(Contrastive Language-Image Pre-training: CLIP)は、オープンボキャブラリ予測の進歩に貢献していますが、セマンティックセグメンテーションの性能は依然として最適ではありません。この欠点は主に、空間不変セマンティック特徴量と制約された解像度から生じています。以前のアダプテーションでは、CLIPの画像エンコーダーにおける自己注意機構を変更することで空間不変性を改善しましたが、解像度の制限に関する問題は未解決でした。従来の分割後に結合する手法とは異なり、スライディングウィンドウで部分画像を分割し結果を結合する代わりに、我々はSegment-Anything Model (SAM) を導入した結合後に分割するパラダイムを提案します。これは、SAMが高解像度画像から細かいセマンティック相関関係を抽出することに優れているためです。具体的には、Tridentという学習不要フレームワークを導入し、まずCLIPとDINOによって抽出された部分画像の特徴量を結合します。その後、SAMのエンコーダーを使用して全般的な集約用の相関行列を作成し、広範な受容野による効果的なセグメンテーションを可能にします。さらに、CLIPの粗いセグメンテーション出力をSAMへのプロンプトに変換する洗練戦略も提案しており、これによりセグメンテーション性能が向上します。Tridentは8つのベンチマークにおいて現行の最先端技術(SOTA)と比較してmIoUで大幅な改善を達成しており、44.4から48.6へと向上しています。コードは以下のURLから入手可能です:https://github.com/YuHengsss/Trident