クロスモーダル検索

クロスモーダル検索(CMR)は、画像、テキスト、ビデオ、音声などの異なるモーダルから関連するアイテムを検索するタスクです。この課題の核心は、モーダル間の異質性ギャップにあります。つまり、異なるモーダルのデータは独自の表現形式を持つため、直接的な比較が困難です。この問題に対処するために、多くのCMR手法は共有の潜在埋め込み空間を学習することに焦点を当てています。ここで、異なるモーダルの概念は同じ次元に射影され、距離メトリクスを通じて類似性を測定することが可能になります。このタスクは、マルチメディア情報検索、推薦システム、ヒューマンコンピュータインタラクションなどの分野で大きな応用価値を持っています。