Image To Text Retrieval
图像-文本检索(Image-text retrieval)是指基于文本描述检索相关图像或为给定图像找到对应的文本描述。该任务结合了计算机视觉与自然语言处理技术,主要挑战在于弥合语义差距,即图像中视觉数据的表示与人类使用语言描述这些信息之间的差异。为此,许多方法致力于学习一个共享嵌入空间,使图像和文本能够在其中以可比较的方式表示,从而测量它们的相似性,实现更准确的检索。在电子商务等领域,图像到文本检索的应用价值尤为显著,能够提升商品搜索和推荐的精准度。