2ヶ月前
画像補完を用いた視覚プロンプティング
Bar, Amir ; Gandelsman, Yossi ; Darrell, Trevor ; Globerson, Amir ; Efros, Alexei A.

要約
タスク固有の微調整やモデルの変更を行わずに、事前学習済みの視覚モデルを新しい下流タスクに適応させる方法はどのようなものでしょうか?本論文では、自然言語処理(NLP)におけるプロンプティングの手法に着想を得て、視覚プロンプティングについて調査しています。テスト時に新しいタスクの入力-出力画像例と新しい入力画像が与えられた場合、目標は自動的にその例と一貫した出力画像を生成することです。この問題を単純な画像補完(文字通り連結された視覚プロンプト画像の穴埋め)として捉えると、補完アルゴリズムが適切なデータで学習されている限り、驚くほど効果的であることが示されました。私たちはArxivから収集した88,000枚のラベルなし図を含む新しいデータセットを使用して、マスク付き自己符号化器を訓練しました。これらの事前学習済みモデルに対して視覚プロンプティングを適用し、前景セグメンテーション、単一オブジェクト検出、色情報付加、エッジ検出などの様々な下流画像対画像タスクでの結果を示しています。