2ヶ月前
候補集合の再順位付けを用いた双方向マルチモーダルエンコーダによる合成画像検索
Liu, Zheyuan ; Sun, Weixuan ; Teney, Damien ; Gould, Stephen

要約
合成画像検索は、参照画像とテキストのペアから構成される多モーダルユーザクエリに最適に一致する画像を見つけることを目指しています。既存の手法では、通常、コーパス全体に対して事前に画像埋め込みを計算し、テスト時にクエリテキストによって変更された参照画像の埋め込みと比較します。このパイプラインは、テスト時に高速なベクトル距離を使用して候補を評価できるため非常に効率的ですが、短いテキスト説明のみに基づいて参照画像の埋め込みを変更することは困難であり、特に潜在的な候補とは独立した場合においてその難しさが増します。一方で、クエリとすべての可能な候補との間での相互作用を許可する別のアプローチがあります。つまり、参照-テキスト-候補のトリプレットを使用し、全セットから最良のものを選択します。このアプローチはより識別力が高いものの、大規模データセットでは計算コストが高すぎることから、候補の埋め込みを事前に計算することが不可能となります。そこで我々は、両方のスキームの長所を組み合わせた二段階モデルを提案します。第一段階では従来のベクトル距離メトリックを採用し、候補の中から高速に絞り込みを行います。第二段階ではデュアルエンコーダー構造を使用し、参照-テキスト-候補の入力トリプレットに効果的に注目して再順位付けを行います。両段階とも視覚言語事前学習ネットワークを利用しており、これが様々な下流タスクにおいて有益であることが証明されています。我々の方法は標準的なベンチマークで一貫して最先端の手法を超える性能を示しています。実装は https://github.com/Cuberick-Orion/Candidate-Reranking-CIR で公開されています。