Hallucinations を活用してマニュアルプロンプト依存を軽減する プロンプト可能なセグメンテーション

プロンプタブルセグメンテーションは通常、各目的物体のセグメンテーションをガイドするためにインスタンス固有の手動プロンプトが必要です。このような必要性を最小限に抑えるため、タスク汎用プロンプタブルセグメンテーションが導入されました。これは、単一のタスク汎用プロンプトを使用して、同じタスク内の異なる物体の様々な画像をセグメント化する方法です。現在の手法では、マルチモーダル大規模言語モデル(MLLM)が使用され、タスク汎用プロンプトから詳細なインスタンス固有のプロンプトを推論し、セグメンテーション精度を向上させています。このセグメンテーションの効果は、これらの派生プロンプトの精度に大きく依存しています。しかし、MLLMは推論中に幻覚(hallucinations)を引き起こすことが多く、これが不正確なプロンプティングにつながります。既存の手法はモデル改善のために幻覚を排除することに焦点を当てていますが、私たちはMLLMの幻覚が個々の画像を超えた大規模な事前学習知識を表しており、適切に活用することで価値あるコンテクスト情報を明らかにできるという主張を行います。本論文では、幻覚を利用して画像からタスク関連情報を抽出し、生成されたプロンプトの精度を検証する手法について述べます。具体的には、プロンプトジェネレータとマスクジェネレータを持つ反復的なプロンプト-マスクサイクル生成フレームワーク(ProMaC)を提案します。プロンプトジェネレータは多尺度チェーンオブサウンド(chain of thought)プロンティングを使用し、最初にテスト画像から拡張されたコンテクスト知識を抽出するために幻覚を探求します。次に、これらの幻覚は削減され、正確なインスタンス固有のプロンプトが形成されます。これによりマスクジェネレータはマスク意味対応(mask semantic alignment)によってタスク意味論と整合性のあるマスクを作成します。生成されたマスクは反復的にプロンプトジェネレータに対してよりタスクに関連した画像領域に注目し、無関係な幻覚を削減させる働きを持ちます。これにより共同でより良いプロンプトとマスクが得られます。5つのベンチマークでの実験結果はProMaCの効果性を示しています。コードは https://lwpyh.github.io/ProMaC/ で提供されています。