2ヶ月前
コンテキスト依存の単語への画像マッピング:正確なゼロショット合成画像検索のための方法
Yuanmin Tang; Jing Yu; Keke Gai; Jiamin Zhuang; Gang Xiong; Yue Hu; Qi Wu

要約
特定のタスク向けモデルの学習に高価なラベルが必要な従来の合成画像検索タスクとは異なり、Zero-Shot Composed Image Retrieval (ZS-CIR) は、ドメイン、シーン、オブジェクト、属性などに関連する多様な視覚コンテンツ操作意図を含むさまざまなタスクを対象としています。ZS-CIR タスクにおける主要な課題は、参照画像に対する適応的な注意を有するより正確な画像表現を学習することです。本論文では、説明に関連する画像情報を、正確な ZS-CIR のための説明から構成される疑似単語トークンに適応的に変換する新しいコンテキスト依存マッピングネットワークである Context-I2W を提案します。具体的には、Intent View Selector が最初に動的に回転ルールを学習し、同一の画像をタスク固有の操作ビューにマッピングします。その後、Visual Target Extractor が複数の学習可能なクエリのガイダンスのもとで ZS-CIR タスクにおける主要目標をカバーする局所情報をさらに抽出します。これらの補完的な2つのモジュールが協力して、追加の監督なしで画像をコンテキスト依存の疑似単語トークンにマッピングします。我々のモデルは4つの ZS-CIR タスク(ドメイン変換、オブジェクト合成、オブジェクト操作、属性操作)において強力な汎化能力を示しており、最良の方法に対して1.88%から3.60%までの一貫したかつ有意な性能向上を達成し、ZS-CIR において新たな最先端結果を達成しています。我々のコードは https://github.com/Pter61/context-i2w で入手可能です。