2ヶ月前

明示的な視覚的プロンプティングによる低レベル構造分割

Liu, Weihuang ; Shen, Xi ; Pun, Chi-Man ; Cun, Xiaodong
明示的な視覚的プロンプティングによる低レベル構造分割
要約

画像中の低レベル構造の検出という一般的な問題について考察します。これには、操作された部分のセグメンテーション、ピント外れピクセルの識別、影領域の分離、隠蔽物体の検出などが含まれます。これらの各トピックは通常、ドメイン固有の解決策で対処されてきましたが、我々は統一的なアプローチがこれら全てにおいて良好な性能を示すことを示しています。我々は、NLP(自然言語処理)で広く使用されている事前学習とその後のプロンプト調整プロトコルに着想を得て、新しい視覚プロンプティングモデルである「Explicit Visual Prompting (EVP)」を提案します。従来の視覚プロンプティングが通常データセットレベルでの暗黙的な埋め込みであるのに対し、我々の主な洞察は、調整可能なパラメータを個々の画像から明示的な視覚的内容に集中させることです。つまり、固定されたパッチ埋め込みからの特徴量と入力の高周波成分に焦点を当てています。提案したEVPは、同じ数の調整可能なパラメータ(各タスクにおける5.7%追加トレーニング可能なパラメータ)を持つ他の効率的な調整プロトコルよりも大幅に優れた性能を発揮します。また、タスク固有の解決策と比較して、多様な低レベル構造セグメンテーションタスクにおいて最先端の性能を達成しています。当社のコードは以下のURLで公開されています: https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.

明示的な視覚的プロンプティングによる低レベル構造分割 | 最新論文 | HyperAI超神経