SAMにおける画像特有のプロンプト要件の緩和:カモフラージュされた物体をセグメンテーションするための単一の汎用プロンプト

カモフラージュされた物体検出(COD)手法は、ピクセルレベルのアノテーションデータセットに大きく依存しています。弱教師付きCOD(WSCOD)手法では、スクリブルやポイントなどの疎なアノテーションを使用してアノテーション作業を軽減しますが、これにより精度が低下する可能性があります。Segment Anything Model(SAM)は、ポイントのような疎なプロンプトを使用して優れたセグメンテーション能力を示しています。しかし、手動のプロンプトは常に実現可能ではなく、実世界のアプリケーションでは利用できない場合があります。さらに、手動のプロンプトは位置情報のみを提供し、意味情報を提供しないため、対象の解釈に内在的な曖昧さが生じる可能性があります。本研究では、手動プロンプトの必要性を排除することを目指しています。その中心的なアイデアは、クロスモーダルチェーンオブサウンドプロンティング(CCTP)を使用して、汎用的なテキストプロンプトによって与えられる意味情報を基に視覚的なプロンプトを推論することです。この目的達成のために、WSCOD用に視覚的プロンプトを自動生成および最適化するテストタイムでのインスタンスごとの適応メカニズムであるGeneralizable SAM(GenSAM)を導入しました。特に、CCTPはビジョン言語モデルを使用して単一の汎用的なテキストプロンプトを画像固有のコンセンサス前景と背景ヒートマップにマッピングし、信頼性のある視覚的プロンプトを得ます。また、テストタイムでの視覚的プロンプトの適応のために、 Progressive Mask Generation(PMG)という手法を提案しました。これは入力画像に対して反復的に重み付けを行い、モデルが対象物に焦点を当てる粗い段階から細かい段階への移行をガイドします。重要な点は、すべてのネットワークパラメータが固定されているため、追加学習の必要がないことです。実験結果はGenSAMの優位性を示しており、3つのベンチマークにおける実験ではGenSAMがポイント監督手法よりも優れており、スクリブル監督手法と同等の結果を得ています。これは純粋に一般的なタスク説明に基づくプロンプトのみを使用していることを考慮すると著しい成果です。コードは以下のURLで公開されています: https://lwpyh.github.io/GenSAM/.