ゼロショットクロスモーダルリトリーバル
Zero-Shot Cross-Modal Retrieval は、異なるモダリティ(テキストや画像など)間で関連するアイテムを見つけるタスクであり、学習用のサンプルデータなしで実行されます。このタスクの主な課題は、異種間のデータタイプの違いによって生じる「異質性ギャップ」です。これは、異なるモダリティ間での類似性を直接測定することが困難であることを意味します。この問題に対処するために、既存の手法では通常、共有潜在表現空間を学習することで異質性ギャップを埋めます。これにより、異なるモダリティのデータを同じ表現空間に射影し、クロスモーダルなアイテム間での直接的な類似性測定が可能になります。この技術は、EC サイトなどの分野で大きな応用価値を持っています。