3 小时前

Xinping Zhao Jiaxin Xu Ziqi Dai Xin Zhang Shouzheng Huang Danyu Tang Xinshuo Hu Meishan Zhang Baotian Hu Min Zhang

摘要

随着检索系统规模的扩大，高质量的重排序日益重要。然而，大多数现有重排序器，无论基于编码器还是解码器，均联合编码查询与段落，紧密耦合了计算过程，从而限制了部署效率与灵活性。本文提出 KaLM-Reranker-V1，这是一种快速但非晚期交互（FBNL）重排序器，在解耦查询与段落计算的同时，保留了表达能力强的相关性建模。基于编码器-解码器架构，KaLM-Reranker-V1 利用编码器结合 Matryoshka embedding pooling 对段落进行预编码，而解码器则对系统指令、用户指令及查询意图进行建模；随后通过交叉注意力机制捕捉查询上下文与段落表示之间的相关性。该设计通过解耦的段落编码实现高效计算，同时借助交叉注意力保留丰富的相关性建模，从而达成非晚期交互特性。我们将 KaLM-Reranker-V1 实例化为三种规模：Nano、Small 和 Large，分别包含 0.27B、1B 和 4B 的激活参数。在 BEIR、MIRACL 和 LMEB 上的大量实验表明，KaLM-Reranker-V1 在保持卓越效率的同时实现了强大的重排序性能。在 BEIR 上，KaLM-Reranker-V1 达到了当前最优性能，与 Qwen3-Reranker 系列等强大的工业级模型相当；在 MIRACL 上，尽管未在多语言数据上进行广泛训练，KaLM-Reranker-V1 仍展现出优异的重排序性能。此外，在 LMEB 上，重排序模型展现出显著优势，甚至 0.27B 的 Nano 模型仍能与 7B-12B 的嵌入模型相竞争。

一句话总结

KaLM-Reranker-V1 是一种编码器-解码器架构的重排模型，通过套娃嵌入池化（Matryoshka embedding pooling）和交叉注意力机制解耦段落与查询的计算，在保留强大相关性建模能力的同时，在 BEIR、MIRACL 和 LMEB 上的评估结果证明了其卓越的重排性能与高效性。

核心贡献

提出 KaLM-Reranker-V1，这是一种快速但非晚期交互（fast but not late-interaction）的重排模型，通过解耦查询与段落的计算，克服了联合编码架构的效率瓶颈。编码器-解码器设计通过套娃嵌入池化预先编码段落，同时解码器处理系统指令、用户指令及查询意图，交叉注意力层则保留强大的相关性建模能力。
该模型提供三种可扩展变体：Nano、Small 和 Large，分别包含 0.27B、1B 和 4B 的激活参数量。
在 BEIR、MIRACL 和 LMEB 基准上的广泛评估表明，该解耦架构在实现强大重排性能的同时，具备卓越的计算效率。

引言

文档重排对于现代搜索和检索增强生成系统至关重要，因为准确排列候选段落直接决定了下游的相关性结果与用户体验。然而，现有的晚期交互模型需要计算细粒度的 token 对齐，这在处理压缩或长文档时会产生严重的计算瓶颈。本文作者采用了一种精简架构，移除了晚期交互机制以大幅降低推理延迟。通过整合优化的上下文压缩与轻量级评分框架，KaLM-Reranker-V1 在保留强相关性信号的同时实现快速的文档重排序，从而支持在生产级检索流水线中的可扩展部署。

数据集

数据集构成与来源： 作者构建了一个多语言、多领域的检索数据集，旨在提升跨域鲁棒性。数据涵盖网络搜索、问答、重复问题检索与事实核查，来源于两个公开仓库：KaLM 嵌入微调数据的检索子集，以及从 BGE-M3 训练语料中精选的部分。
子集详情与规模： 尽管论文未提供按来源划分的精确细分数据，但合并后的预处理数据集包含约 370 万个训练样本。详细的统计数据与来源特定指标记录在补充表格中。
模型用途与训练配置： 作者仅使用该最终数据集进行监督微调，以开发 KaLM-Reranker-V1 的重排能力。数据被准备为统一的训练语料，本节未明确提及验证集或测试集划分。
处理与采样策略： 为解决查询-正样本对格式的常见局限性，团队通过结构化的难负样本挖掘流水线构建完整的重排实例。针对每个查询，使用 KaLM-Embedding-V2.5 从对应语料中检索前 100 个候选段落。随后，严格从第 10 至 50 名中采样恰好 16 个难负样本。该特定范围促使模型学习细粒度区分，避免过于简单的低排名结果，并最大程度降低从高排名候选中误选真实正样本的风险。

方法

作者提出了 KaLM-Reranker-V1，这是一种基于快速但非晚期交互（FBNL）范式的重排模型。该架构通过解耦查询与段落的计算来提升效率，同时保留强大的相关性建模能力。如下图所示的框架：

该模型由一个专用于处理候选文档的编码器和一个负责建模查询与指令上下文的解码器组成。编码器将候选文档 $p$ 映射为可复用的隐藏表示 $\mathbf{H}_d = \text{Enc}(p) \in \mathbb{R}^{n \times d}$ ，其中 $n$ 为序列长度， $d$ 为隐藏层维度。这使得段落表示可以预先计算并离线缓存。解码器以任务指令 $I$ 和用户查询 $q$ 作为输入，形成解码器输入 $\mathbf{X} \in \mathbb{R}^{m \times d}$ 。为捕捉细粒度的相关性，解码器通过以 $\mathbf{X}$ 生成查询向量，并以 $\mathbf{X}$ 与编码后段落 $\mathbf{H}_d$ 的拼接结果生成键向量和值向量，从而计算交叉注意力。注意力机制定义如下：

\mathbf{Q} = \mathbf{X} \mathbf{W}_{Q}, \quad \mathbf{K} = [\mathbf{X}; \mathbf{H}_d] \mathbf{W}_{K}, \quad \mathbf{V} = [\mathbf{X}; \mathbf{H}_d] \mathbf{W}_{V}

\mathbf{O} = \text{softmax} \left( \frac{\mathbf{Q} \mathbf{K}^{\top}}{\sqrt{d_h}} + \mathbf{M} \right) \mathbf{V} \mathbf{W}_{O}

其中 $\mathbf{M}$ 为因果掩码。语言模型头随后将第一个预测位置的表示投影至词表 logits。相关性得分通过比较生成 tokens "yes" 与 "no" 的概率得出：

\text{score}(q, p) = \frac{\exp(z_{\text{yes}})}{\exp(z_{\text{yes}}) + \exp(z_{\text{no}})}

为缓解缓存完整段落表示带来的存储开销，作者引入了套娃嵌入池化（Matryoshka Embedding Pooling, MEP）。该技术通过分组连续 tokens 并应用平均池化，沿序列维度压缩段落表示。对于压缩率 $r$ ，压缩后的表示变为 $\mathbf{H}_p^{(r)} \in \mathbb{R}^{\lceil n/r \rceil \times d}$ 。模型在一系列压缩率 $\mathcal{R}$ 上进行训练，通过优化组合的监督微调损失，确保表示在不同压缩程度下仍保持有效性。

训练遵循渐进式多阶段流水线设计，旨在逐步将基础模型适配至重排任务。如下图所示的训练流水线：

该过程始于通用重排能力学习，模型在无明确任务指令的情况下进行训练，以建立与领域无关的相关性基础。第二阶段引入任务特定指令，并在高质量数据上继续监督微调，使模型能够将其评分行为适配至特定搜索意图。最后阶段采用细粒度相关性蒸馏，由更强的教师重排器提供软标签。学生模型针对这些软目标优化二元交叉熵损失：

\mathcal{L}_{\text{kd}} = -y \log \hat{y} - (1 - y) \log (1 - \hat{y})

该蒸馏步骤精炼了模型的判别能力，特别是在难负样本与边界相关性案例上，最终产出 KaLM-Reranker-V1 的各版本变体。

实验

评估在 BEIR、MIRACL 和 LMEB 基准上采用标准化的两阶段检索流水线，以检验跨域泛化能力、多语言鲁棒性及长程记忆检索能力。时间复杂度分析证实，离线段落编码与套娃压缩大幅降低了在线服务开销，同时保留了强大的相关性建模能力，尤其在较长上下文中表现显著。压缩与扩展实验进一步表明，适度压缩比提供了效率与精度的最佳权衡，较大模型对信息损失表现出更强的韧性。最终结果证实，相较于单纯扩展独立嵌入模型，所提出的编码器-解码器范式实现了极具竞争力的重排性能，并显著提升了复杂及基于记忆的检索任务。

作者在对话记忆检索基准上评估了嵌入模型，以对比其与检索后重排流水线的有效性。结果表明，使用较小模型的流水线取得了优于最大嵌入模型的平均性能，这表明单纯扩大嵌入模型规模的效果较为有限。在对比的嵌入模型中，第二大模型取得了最高平均分，而最大模型表现较低。使用较小模型的检索后重排流水线在平均性能上优于最大嵌入模型。扩大嵌入模型规模并未始终带来记忆基准上的性能提升。第二大嵌入模型在对比的嵌入模型中取得了最佳平均性能。

作者在涵盖 18 种语言的 MIRACL 基准上，将 KaLM-Reranker-V1 系列与竞争性基线模型进行了对比评估。结果表明，所提模型在大幅降低在线计算成本的同时，实现了更优或相当的重排性能。这表明 KaLM-Reranker-V1 架构在保障精度的前提下，为多语言检索任务提供了高度高效的解决方案。KaLM-Reranker-V1-Large 在其参数量级类别中取得最佳平均性能，超越 bge-reranker-v2-gemma 等基线模型，同时保持更低的计算开销。KaLM-Reranker-V1-Nano 等紧凑模型提供了高度高效的检索重排，开销显著低于大型基线，同时达到了具有竞争力的精度。KaLM-Reranker-V1-Large 在多种单一语言上均斩获高分，尽管训练数据有限，仍展现出强大的多语言能力。

作者在涵盖记忆检索任务在内的多个检索基准上，将 KaLM-Reranker-V1 系列与多种开源重排器进行了对比评估。结果表明，所提模型在大幅降低在线计算成本的同时，实现了与大型基线模型相媲美的性能。该研究凸显了所提架构的效率优势，以及检索后重排流水线相较于单纯扩展嵌入模型的好处。KaLM-Reranker-V1 模型的性能可与 Qwen3 和 bge 等大型工业级重排器相当，且通常具备显著更低的在线计算成本。使用 Nano 模型的检索后重排流水线优于单纯扩展嵌入模型，证明了专业化重排的价值。这些模型在记忆检索任务中展现出强大能力，重排器显著提升了初始检索器的性能。

该表格对比了 KaLM-Reranker-V1 系列与多种开源模型在 BEIR 基准上的重排性能。结果表明，KaLM-Reranker-V1 在多样化任务中实现了具有竞争力的精度，同时相比大型基线大幅降低了在线计算成本。该模型的较小变体保持了高运行效率，通常能以更低的资源需求超越大型模型。KaLM-Reranker-V1-Large 在多数任务中达到顶尖性能，其效果与显著更大的模型相当。Small 变体提供了强劲的平均结果，相对成本远低于 Qwen3-Reranker-0.6B 等同类竞品。Nano 模型提供了一种高度高效的解决方案，在保持竞争力精度的同时，所需的在线计算资源最少。

作者展示了 KaLM-Reranker-V1 模型三个变体的架构细节，其规模从紧凑版扩展至大型配置。这些模型专为处理长序列长度而设计，并通过套娃嵌入池化支持灵活压缩。参数分布显示，非嵌入组件占据了模型体积的大部分，其中最大变体拥有最高的维度与层数。模型规模显著增加，同时伴随层数与隐藏层维度的提升。所有变体均支持指令感知能力及段落表示的灵活压缩比。非嵌入参数在总参数量中占据主导，尤其在大型模型配置中更为明显。

实验在对话记忆、多语言及通用检索基准上评估了嵌入模型与 KaLM-Reranker-V1 系列，以验证模型规模扩展与流水线架构对检索性能的影响。研究结果证实，单纯扩展嵌入模型带来的提升并不稳定，而使用较小模型的检索后重排方法则始终实现更优结果。此外，KaLM-Reranker-V1 变体证实，针对性的架构优化使较小模型能够在精度上匹配大型基线，同时大幅降低计算开销，凸显了高效重排流水线的实际优势。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 小时前

Xinping Zhao Jiaxin Xu Ziqi Dai Xin Zhang Shouzheng Huang Danyu Tang Xinshuo Hu Meishan Zhang Baotian Hu Min Zhang

摘要

一句话总结

核心贡献

提出 KaLM-Reranker-V1，这是一种快速但非晚期交互（fast but not late-interaction）的重排模型，通过解耦查询与段落的计算，克服了联合编码架构的效率瓶颈。编码器-解码器设计通过套娃嵌入池化预先编码段落，同时解码器处理系统指令、用户指令及查询意图，交叉注意力层则保留强大的相关性建模能力。
该模型提供三种可扩展变体：Nano、Small 和 Large，分别包含 0.27B、1B 和 4B 的激活参数量。
在 BEIR、MIRACL 和 LMEB 基准上的广泛评估表明，该解耦架构在实现强大重排性能的同时，具备卓越的计算效率。

引言

数据集

数据集构成与来源： 作者构建了一个多语言、多领域的检索数据集，旨在提升跨域鲁棒性。数据涵盖网络搜索、问答、重复问题检索与事实核查，来源于两个公开仓库：KaLM 嵌入微调数据的检索子集，以及从 BGE-M3 训练语料中精选的部分。
子集详情与规模： 尽管论文未提供按来源划分的精确细分数据，但合并后的预处理数据集包含约 370 万个训练样本。详细的统计数据与来源特定指标记录在补充表格中。
模型用途与训练配置： 作者仅使用该最终数据集进行监督微调，以开发 KaLM-Reranker-V1 的重排能力。数据被准备为统一的训练语料，本节未明确提及验证集或测试集划分。
处理与采样策略： 为解决查询-正样本对格式的常见局限性，团队通过结构化的难负样本挖掘流水线构建完整的重排实例。针对每个查询，使用 KaLM-Embedding-V2.5 从对应语料中检索前 100 个候选段落。随后，严格从第 10 至 50 名中采样恰好 16 个难负样本。该特定范围促使模型学习细粒度区分，避免过于简单的低排名结果，并最大程度降低从高排名候选中误选真实正样本的风险。

方法

\mathbf{Q} = \mathbf{X} \mathbf{W}_{Q}, \quad \mathbf{K} = [\mathbf{X}; \mathbf{H}_d] \mathbf{W}_{K}, \quad \mathbf{V} = [\mathbf{X}; \mathbf{H}_d] \mathbf{W}_{V}

\mathbf{O} = \text{softmax} \left( \frac{\mathbf{Q} \mathbf{K}^{\top}}{\sqrt{d_h}} + \mathbf{M} \right) \mathbf{V} \mathbf{W}_{O}

其中 $\mathbf{M}$ 为因果掩码。语言模型头随后将第一个预测位置的表示投影至词表 logits。相关性得分通过比较生成 tokens "yes" 与 "no" 的概率得出：

\text{score}(q, p) = \frac{\exp(z_{\text{yes}})}{\exp(z_{\text{yes}}) + \exp(z_{\text{no}})}

训练遵循渐进式多阶段流水线设计，旨在逐步将基础模型适配至重排任务。如下图所示的训练流水线：

\mathcal{L}_{\text{kd}} = -y \log \hat{y} - (1 - y) \log (1 - \hat{y})

该蒸馏步骤精炼了模型的判别能力，特别是在难负样本与边界相关性案例上，最终产出 KaLM-Reranker-V1 的各版本变体。

实验

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

KaLM-Reranker-V1：用于压缩文档重排序的快速但非晚期交互

Xinping Zhao Jiaxin Xu Ziqi Dai Xin Zhang Shouzheng Huang Danyu Tang Xinshuo Hu Meishan Zhang Baotian Hu Min Zhang

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

KaLM-Reranker-V1：用于压缩文档重排序的快速但非晚期交互

Xinping Zhao Jiaxin Xu Ziqi Dai Xin Zhang Shouzheng Huang Danyu Tang Xinshuo Hu Meishan Zhang Baotian Hu Min Zhang

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

KaLM-Reranker-V1：用于压缩文档重排序的快速但非晚期交互

Xinping Zhao Jiaxin Xu Ziqi Dai Xin Zhang Shouzheng Huang Danyu Tang Xinshuo Hu Meishan Zhang Baotian Hu Min Zhang

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters