言語のみによる効率的なゼロショット合成画像検索の学習

合成画像検索(Composed Image Retrieval: CIR)タスクは、画像とテキストから構成される複合クエリを取り扱い、両方の条件に関連する画像を検索することを目指しています。従来のCIRアプローチでは、クエリ画像、クエリテキスト、および目標画像からなる三つ組の訓練データセットが必要で、その収集には非常に高コストがかかります。最近のいくつかの研究では、事前に収集された三つ組を使用せずにこの問題に対処するためのゼロショット(Zero-Shot: ZS)CIRパラダイムに取り組んでいます。しかし、既存のZS-CIR手法は、訓練中に入力テキストの多様性が不足しているため、バックボーンのスケーラビリティと汎化能力が制限されています。本稿では、言語のみを使用した新しいCIRフレームワークを提案します。我々のLinCIR(Language-only training for CIR)は、新しい自己監督学習手法である自己マスキング射影(Self-Masking Projection: SMP)によってテキストデータセットのみで訓練することができます。具体的には、テキスト潜在埋め込みをトークン埋め込み空間に射影し、元のテキストのキーワードトークンを置き換えて新しいテキストを作成します。その後、新しいテキストと元のテキストが同じ潜在埋め込みベクトルを持つようにします。この単純な戦略により、LinCIRは驚くほど効率的かつ効果的です。CLIP ViT-Gバックボーンを使用したLinCIRは48分で訓練され、4つの異なるCIRベンチマーク(CIRCO, GeneCIS, FashionIQ, および CIRR)において最良のZS-CIR性能を示しました。特にFashionIQにおいては監督学習手法を上回る結果を出しています。コードは以下のURLから入手可能です:https://github.com/navervision/lincir