2ヶ月前

PosSAM: パノプティック オープンボキャブラリー セグメント アニシング

Vibashan VS; Shubhankar Borse; Hyojin Park; Debasmit Das; Vishal Patel; Munawar Hayat; Fatih Porikli
PosSAM: パノプティック オープンボキャブラリー セグメント アニシング
要約

本論文では、オープンボキャブラリのパノラマセグメンテーションモデルを紹介します。このモデルは、Segment Anything Model (SAM) の強みと vision-language CLIP モデルの長所を端から端までの一貫したフレームワークで効果的に統合しています。SAM は空間的なマスク生成に優れていますが、オブジェクトクラス情報の認識においては弱さがあり、追加のガイダンスなしでは過分割しがちです。既存の手法では、この制限を多段階技術を使用し、別のモデルでクラス情報に基づくプロンプト(バウンディングボックスやセグメンテーションマスクなど)を生成することで対処しています。我々が提案する PosSAM は、エンドツーエンドのモデルであり、SAM の豊富な空間的特徴を利用してインスタンス認識マスクを生成し、CLIP の意味的に区別可能な特徴を利用することで効果的なインスタンス分類を行います。特に、SAM の制限に対処するために、クラス非依存型 SAM とクラス依存型 CLIP 特徴を活用した新しいローカル判別プーリング (LDP) モジュールを提案します。これにより偏りのないオープンボキャブラリ分類が可能となります。さらに、各画像に対して推論時に生成されたマスクの品質を適応的に向上させ、オープンボキャブラリ分類の性能を向上させるための Mask-Aware Selective Ensembling (MASE) アルゴリズムを導入しました。我々は複数のデータセットにわたる広範な実験を行い、提案手法が強い汎化能力を持つことを示し、SOTA オープンボキャブラリパノラマセグメンテーション手法よりも大幅に高性能であることが確認されました。COCO から ADE20K への設定および ADE20K から COCO への設定においても、PosSAM は以前の最先端手法よりも大幅に優れた性能を発揮しており、それぞれ 2.4 PQ および 4.6 PQ の改善となっています。プロジェクトウェブサイト: https://vibashan.github.io/possam-web/

PosSAM: パノプティック オープンボキャブラリー セグメント アニシング | 最新論文 | HyperAI超神経