HyperAIHyperAI

Command Palette

Search for a command to run...

事前学習を推論のように行う:マスク付きチューニングがゼロショット合成画像検索を改善する

Chen, Junyang

概要

ゼロショット合成画像検索(ZS-CIR)は、トリプレットラベリングなしでテキストの変更と参照画像をクエリとして使用して目標画像を検索する技術であり、データマイニング分野での注目度が高まっています。現在のZS-CIR研究は、主に事前学習されたビジョン言語モデル(例:CLIP)の汎化能力に依存しています。しかし、事前学習されたビジョン言語モデルとCIRタスクには大きな乖離があります。ビジョン言語モデルは類似性の学習に焦点を当てていますが、CIRはテキストによってガイドされる画像の変更点を学習することを目指しています。本論文では、この乖離を縮めるために新しいラベルなし且つ事前学習済みのマスクチューニングアプローチを提案します。まず、乖離を縮めるためにビジョン言語モデルの対照的学習をCIRタスクに再定式化します。ここでは、入力画像パッチをランダムにマスキングし、画像-テキストペアから\langleマスキングされた画像, テキスト, 画像\rangleトリプレットを生成します。次に、シンプルながら新規な事前学習済みのマスクチューニング手法を提案します。この手法では、テキストとマスキングされた画像を使用して元の画像の変更点を学習します。このようなシンプルな設計により、提案されたマスクチューニングはより微細なテキストガイドによる変更点を捉える能力が向上します。広範囲にわたる実験結果は、FashionIQ, CIRR, CIRCO, GeneCISという4つのZS-CIRデータセットにおいて当社のアプローチがベースラインモデルに対して著しい優位性を持つことを示しています。当社のコードはhttps://github.com/Chen-Junyang-cn/PLI で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
事前学習を推論のように行う:マスク付きチューニングがゼロショット合成画像検索を改善する | 記事 | HyperAI超神経