Command Palette
Search for a command to run...
RHELM 长程记忆评估数据集
RHELM 是由 Microsoft 于 2026 年发布的长程记忆能力评估数据集,相关论文成果为 Beyond Static Dialogues: Benchmarking Realistic, Heterogeneous, and Evolving Long-Term Memory,旨在提升大模型在复杂动态场景中的长期记忆、多跳推理与时序信息合成能力,广泛应用于大语言模型长时序记忆评测、 AI 助手长期交互能力验证、大模型多跳推理、时序信息融合与幻觉检测等研究场景。 该数据集包含 10 组虚拟角色人设、 1,305 组问答对、 629 个 JSON 格式对话会话、 625 个 TXT 格式邮件线程以及 1,053 个 MD 、 HTML 格式附件文档,配套问题涵盖附件引用、混合推理、事实查询、幻觉检测、信息聚合、时序分析及误导性问题七大核心类型。