Cross Modal Retrieval
跨模态检索(Cross-Modal Retrieval, CMR)是一项从不同模态如图像、文本、视频和音频中检索相关项的任务。其核心挑战在于模态异质性差距,即不同模态的数据具有不同的表示形式,难以直接比较。为解决这一问题,大多数CMR方法致力于学习一个共享的潜在嵌入空间,在此空间中,来自不同模态的概念被投影到同一维度,从而可以通过距离度量来衡量它们的相似性。该任务在多媒体信息检索、推荐系统和人机交互等领域具有重要应用价值。
跨模态检索(Cross-Modal Retrieval, CMR)是一项从不同模态如图像、文本、视频和音频中检索相关项的任务。其核心挑战在于模态异质性差距,即不同模态的数据具有不同的表示形式,难以直接比较。为解决这一问题,大多数CMR方法致力于学习一个共享的潜在嵌入空间,在此空间中,来自不同模态的概念被投影到同一维度,从而可以通过距离度量来衡量它们的相似性。该任务在多媒体信息检索、推荐系统和人机交互等领域具有重要应用价值。