8ヶ月前

画像間変換

マルチモーダル

コンピュータビジョン

Amir Bar Yossi Gandelsman Trevor Darrell Amir Globerson Alexei A. Efros

概要

タスク固有の微調整やモデルの変更を行わずに、事前学習済みの視覚モデルを新しい下流タスクに適応させる方法はどのようなものでしょうか？本論文では、自然言語処理（NLP）におけるプロンプティングの手法に着想を得て、視覚プロンプティングについて調査しています。テスト時に新しいタスクの入力-出力画像例と新しい入力画像が与えられた場合、目標は自動的にその例と一貫した出力画像を生成することです。この問題を単純な画像補完（文字通り連結された視覚プロンプト画像の穴埋め）として捉えると、補完アルゴリズムが適切なデータで学習されている限り、驚くほど効果的であることが示されました。私たちはArxivから収集した88,000枚のラベルなし図を含む新しいデータセットを使用して、マスク付き自己符号化器を訓練しました。これらの事前学習済みモデルに対して視覚プロンプティングを適用し、前景セグメンテーション、単一オブジェクト検出、色情報付加、エッジ検出などの様々な下流画像対画像タスクでの結果を示しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

画像間変換

マルチモーダル

コンピュータビジョン

Amir Bar Yossi Gandelsman Trevor Darrell Amir Globerson Alexei A. Efros

概要

タスク固有の微調整やモデルの変更を行わずに、事前学習済みの視覚モデルを新しい下流タスクに適応させる方法はどのようなものでしょうか？本論文では、自然言語処理（NLP）におけるプロンプティングの手法に着想を得て、視覚プロンプティングについて調査しています。テスト時に新しいタスクの入力-出力画像例と新しい入力画像が与えられた場合、目標は自動的にその例と一貫した出力画像を生成することです。この問題を単純な画像補完（文字通り連結された視覚プロンプト画像の穴埋め）として捉えると、補完アルゴリズムが適切なデータで学習されている限り、驚くほど効果的であることが示されました。私たちはArxivから収集した88,000枚のラベルなし図を含む新しいデータセットを使用して、マスク付き自己符号化器を訓練しました。これらの事前学習済みモデルに対して視覚プロンプティングを適用し、前景セグメンテーション、単一オブジェクト検出、色情報付加、エッジ検出などの様々な下流画像対画像タスクでの結果を示しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています