Command Palette
Search for a command to run...
EVF-SAM: テキストプロンプトによる任意のセグメンテーションのための早期視覚言語融合モデル
EVF-SAM: テキストプロンプトによる任意のセグメンテーションのための早期視覚言語融合モデル
Yuxuan Zhang Tianheng Cheng Rui Hu ei Liu Heng Liu Longjin Ran Xiaoxin Chen Wenyu Liu Xinggang Wang
概要
Segment Anything Model (SAM) は、視覚的なプロンプトを使用した優れたインタラクティブセグメンテーション機能により広範な注目を集めていますが、テキストプロンプトのさらなる探索が不足しています。本論文では、SAM を参照表現セグメンテーションに適応させるためにどのようなテキストプロンプトエンコーダ(例:CLIP や LLM)が有効であるかを実証的に調査し、Early Vision-language Fusion-based SAM (EVF-SAM) を提案します。EVF-SAM は単純かつ効果的な参照セグメンテーション手法であり、マルチモーダルプロンプト(すなわち画像とテキスト)を利用し、事前学習されたビジョン言語モデルを用いて参照プロンプトを生成し、SAM モデルでセグメンテーションを行う構成となっています。驚くべきことに、我々は以下の点を観察しました:(1) マルチモーダルプロンプトと (2) 初期段階での融合を行うビジョン言語モデル(例:BEIT-3)が、SAM の正確な参照表現セグメンテーションのためのプロンプティングに有益であるということです。我々の実験結果は、BEIT-3 を基盤とする提案された EVF-SAM が RefCOCO/+/g における参照表現セグメンテーションで最先端の性能を達成できることを示しており、初期段階でのビジョン言語融合による SAM のプロンプティングの優位性を証明しています。さらに、13億2000万パラメータを持つ提案された EVF-SAM は、大規模マルチモーダルモデルに基づく従来の SAM メソッドと比較してパラメータ数を約82%削減しながら著しく高い性能を達成しています。