組合画像検索のためのテキストエンコーダーのタスク不一致を低減する効率的なポストホックフレームワーク

合成画像検索(Composed Image Retrieval, CIR)は、参照画像と条件付けテキストを基に目標の画像を検索することを目指し、制御可能な画像検索を可能にします。主流のゼロショット(Zero-Shot, ZS)CIR手法は、画像埋め込みをテキストトークン埋め込み空間に射影することで、訓練に高コストがかかるCIR三つ組の必要性を回避し、検索用の合成クエリを形成します。しかし、これらの射影ベースのCIRには固有の制限があります。すなわち、エンコーダーの元々の事前学習タスク(テキスト $\leftrightarrow$ 画像)と目標とするCIRタスク(画像 + テキスト $\leftrightarrow$ 画像)との間でテキストエンコーダーが担うタスクに乖離があり、これがCIR性能に悪影響を与える可能性があるということです。このような乖離を軽減するために、単純な解決策としては、画像エンコーダーとテキストエンコーダーをCIR三つ組を使用して監督的に訓練することが考えられます。しかし、代わりに私たちは「テキストエンコーダーのタスク乖離軽減」(Reducing Task Discrepancy of Text Encoders, RTD)という効率的なテキストのみの後処理フレームワークを提案します。これは射影ベースのCIR手法を補完するものです。私たちは新しい目標アンカー付きテキストコントラスティブ学習を開発し、これによりテキストエンコーダーがCIRのために持つ能力を向上させることを目指しました。さらに、以下の2つの重要な改良点も提案しています:(1) 難易度の高いネガティブサンプルに基づく洗練されたバッチサンプリング戦略と (2) 学習-推論乖離をさらに軽減するための洗練された連結スキームです。RTDを最先端の射影ベース手法に統合することで、4つのA100 GPUを使用して23分間追加で訓練するだけで、リソース集約型の最先端合成CIR三つ組ベースアプローチと同等かそれ以上の性能が得られます(最大で学習速度が$100\times$速くなります)。当研究に関するコードは受理され次第公開いたします。