HyperAI
Command Palette
Search for a command to run...
OpenMementos 是由 Microsoft 于 2026 年发布的一个上下文记忆压缩数据集,面向大模型长链推理与上下文管理能力建模。该数据集旨在训练模型进行上下文压缩与持续推理,从而支持在有限上下文窗口下完成复杂多步推理任务,广泛适用于长链推理建模、记忆增强模型训练及高效生成等研究场景。 该数据集基于 OpenThoughts 推理数据构建,包含 228,557 条结构化推理轨迹,其中数学 123,333 条,科学 61,485 条,编程 43,739 条,每条数据的平均句子数为 187 句。
数据结构
该数据集提供两个子集: default: 用于训练和监督微调(SFT)
- problem(string):问题陈述(输入)
- response(string):包含 block / summary 标记的 Memento 格式推理响应
- domain(string):数据所属领域(如 code,math,science)
- source(string):原始数据来源(源自 OpenThoughts-v3)
- difficulty(int):问题的难度分级 full:用于深入研究或流水线处理 除了上述字段,还包含中间处理过程的详细信息:
- sentences(list[string]):将 response 拆分后的句子级列表,用于细粒度建模与分析
- blocks(list[list[int]]):推理块的边界索引,每个元素为 [start_idx, end_idx],表示该 block 对应的句子范围
- block_summaries(list[string]):每个 block 的阶段性摘要,体现逐步压缩与抽象的推理过程
此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。