2ヶ月前

データローミングと合成画像検索の品質評価

Levy, Matan ; Ben-Ari, Rami ; Darshan, Nir ; Lischinski, Dani
データローミングと合成画像検索の品質評価
要約

組合画像検索(Composed Image Retrieval: CoIR)のタスクは、画像とテキストのモダリティを組み合わせたクエリを扱い、ユーザーが意図をより効果的に表現できるようにするものです。しかし、現在のCoIRデータセットは他の視覚言語(Vision and Language: V&L)データセットに比べて桁違いに小さいです。さらに、これらのデータセットの中には冗長なモダリティを含むクエリなどの顕著な問題がある場合があります。これらの欠点に対処するために、私たちは大規模組合画像検索(Large Scale Composed Image Retrieval: LaSCo)データセットを紹介します。これは既存のCoIRデータセットよりも10倍大きい新しいデータセットです。LaSCoでの事前学習により、ゼロショット設定でも性能が大幅に向上することが示されています。また、私たちはCoIRデータセットと手法の分析に新たなアプローチを提案します。このアプローチはクエリにおけるモダリティの冗長性や必要性を検出することができます。さらに、クロスアテンション駆動シフトエンコーダー(Cross-Attention driven Shift Encoder: CASE)という新しいCoIRベースラインも導入しました。このベースラインはクロスアテンションモジュールを使用してモダリティの早期融合を可能とし、訓練中に追加の補助タスクを利用します。実験結果から、CASEがFashionIQやCIRRなどの確立されたベンチマークで現行の最先端手法よりも優れていることが示されました。

データローミングと合成画像検索の品質評価 | 最新論文 | HyperAI超神経