Command Palette

Search for a command to run...

2 个月前

基于嵌入的检索的理论局限性

Orion Weller Michael Boratko Iftekhar Naim Jinhyuk Lee

基于嵌入的检索的理论局限性

摘要

近年来,向量嵌入被赋予了越来越多的检索任务,其应用范围正迅速扩展至推理、指令遵循、编程等多个领域。这些新兴的基准测试要求嵌入模型能够应对任何查询以及任何可能的语义相关性定义。尽管以往研究已指出向量嵌入在理论上存在局限性,但普遍认为这些困难仅源于不切实际的查询,而通过更优质的训练数据和更大规模的模型,便可克服那些非理想情况下的问题。在本工作中,我们表明:即使在现实场景中,面对极其简单的查询,我们也可能遭遇这些理论上的限制。我们结合学习理论中的已有成果,证明了能够作为某一查询结果返回的文档的 top-k 子集数量,受限于嵌入空间的维度。我们通过实证研究进一步验证了这一结论,即使将范围限制在 k=2 的情形,并在测试集上对参数化嵌入进行自由优化,该限制依然成立。随后,我们构建了一个名为 LIMIT 的真实数据集,该数据集基于上述理论结果对模型进行压力测试,结果发现,即便最先进的模型在这一任务上也表现失败,尽管任务本身极为简单。本研究揭示了现有单向量嵌入范式在性能上的根本局限,并呼吁未来研究探索能够突破这一基础瓶颈的新方法。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供