HyperAIHyperAI

Command Palette

Search for a command to run...

OpenMementos 上下文记忆压缩数据集

日期

19 小时前

数据集组织

Microsoft

许可证

MIT

OpenMementos 是由 Microsoft 于 2026 年发布的一个上下文记忆压缩数据集,面向大模型长链推理与上下文管理能力建模。该数据集旨在训练模型进行上下文压缩与持续推理,从而支持在有限上下文窗口下完成复杂多步推理任务,广泛适用于长链推理建模、记忆增强模型训练及高效生成等研究场景。 该数据集基于 OpenThoughts 推理数据构建,包含 228,557 条结构化推理轨迹,其中数学 123,333 条,科学 61,485 条,编程 43,739 条,每条数据的平均句子数为 187 句。

数据结构

该数据集提供两个子集: default: 用于训练和监督微调(SFT)

  • problem(string):问题陈述(输入)
  • response(string):包含 block / summary 标记的 Memento 格式推理响应
  • domain(string):数据所属领域(如 code,math,science)
  • source(string):原始数据来源(源自 OpenThoughts-v3)
  • difficulty(int):问题的难度分级 full:用于深入研究或流水线处理 除了上述字段,还包含中间处理过程的详细信息:
  • sentences(list[string]):将 response 拆分后的句子级列表,用于细粒度建模与分析
  • blocks(list[list[int]]):推理块的边界索引,每个元素为 [start_idx, end_idx],表示该 block 对应的句子范围
  • block_summaries(list[string]):每个 block 的阶段性摘要,体现逐步压缩与抽象的推理过程

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供