HyperAIHyperAI

Command Palette

Search for a command to run...

データローミングと合成画像検索の品質評価

Matan Levy Rami Ben-Ari Nir Darshan Dani Lischinski

概要

組合画像検索(Composed Image Retrieval: CoIR)のタスクは、画像とテキストのモダリティを組み合わせたクエリを扱い、ユーザーが意図をより効果的に表現できるようにするものです。しかし、現在のCoIRデータセットは他の視覚言語(Vision and Language: V&L)データセットに比べて桁違いに小さいです。さらに、これらのデータセットの中には冗長なモダリティを含むクエリなどの顕著な問題がある場合があります。これらの欠点に対処するために、私たちは大規模組合画像検索(Large Scale Composed Image Retrieval: LaSCo)データセットを紹介します。これは既存のCoIRデータセットよりも10倍大きい新しいデータセットです。LaSCoでの事前学習により、ゼロショット設定でも性能が大幅に向上することが示されています。また、私たちはCoIRデータセットと手法の分析に新たなアプローチを提案します。このアプローチはクエリにおけるモダリティの冗長性や必要性を検出することができます。さらに、クロスアテンション駆動シフトエンコーダー(Cross-Attention driven Shift Encoder: CASE)という新しいCoIRベースラインも導入しました。このベースラインはクロスアテンションモジュールを使用してモダリティの早期融合を可能とし、訓練中に追加の補助タスクを利用します。実験結果から、CASEがFashionIQやCIRRなどの確立されたベンチマークで現行の最先端手法よりも優れていることが示されました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています