明示的な視覚的プロンプティングによる普遍的な前景セグメンテーション

前景セグメンテーションは、コンピュータビジョンにおける基本的な問題であり、注目物体検出、偽造検出、ピンボケ検出、影検出、そして擬態物体検出などを含みます。これまでの研究では、これらのアプリケーションにおける精度と堅牢性の課題に対処するために、領域固有の解決策に依存することが一般的でした。本論文では、タスク固有の設計を一切行わない複数の前景セグメンテーションタスクに対する統一的なフレームワークを提案します。我々は、NLPで広く使用されている事前学習とプロンプト調整プロトコルから着想を得て、新しい視覚プロンプティングモデルである明示的視覚プロンプティング(Explicit Visual Prompting, EVP)を提案します。従来の視覚プロンプティングが通常データセットレベルでの暗黙的な埋め込みであるのに対して、我々の主な洞察点は各個別の画像からの明示的な視覚コンテンツに焦点を当てる可変パラメータを強制することです。すなわち、固定されたパッチ埋め込みと高周波成分からの特徴量です。本手法では、事前学習済みモデルを固定し、その後少数の追加パラメータを使用してタスク固有の知識を学習します。わずかな数の可変パラメータしか導入していないにもかかわらず、EVPは完全ファインチューニングや他のパラメータ効率的なファインチューニング方法よりも優れた性能を達成しています。5つのタスクにわたる14つのデータセットでの実験結果は、提案手法が他のタスク固有の方法よりも優れていることを示しており、その構造は非常に単純です。提案手法は異なるアーキテクチャ、事前学習済み重み、およびタスクにおいてスケーラビリティを持つことが確認されました。コードは以下のURLで公開されています: https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.