Command Palette
Search for a command to run...
稠密检索器 Dense Retriever
稠密检索器(Dense Retriever)是自监督训练新框架 Revela 的核心优化组件 。该框架由达姆施塔特工业大学、华盛顿大学、卡内基梅隆大学、微软与腾讯 AI Lab 的联合团队提出,相关研究成果发表于论文 Revela: Dense Retriever Learning via Language Modeling,已被 ICLR 2026 接受。
稠密检索器的核心机制是将查询和文档映射到高维向量空间中,通过计算向量相似度来判断内容相关性,从而帮助语言模型获取外部专业知识 。传统上,训练高质量的稠密检索器极其依赖成本高昂的「查询-文档」人工标注数据,这导致其在代码等复杂专业领域难以大规模应用 。在最新的 Revela 研究中,稠密检索器彻底摆脱了这一瓶颈:它被巧妙地融入到语言模型的「预测下一个词」任务中,通过引入跨文档的注意力机制进行联合优化。实验证明,这种无需标注数据训练出的稠密检索器,不仅在特定领域和复杂推理任务上击败了参数规模更大的监督模型,还能以极低的数据和算力成本在通用领域达到无监督水平的 SOTA 。