日期

13 天前

数据集组织

论文 URL

2605.31086

许可证

CC BY 4.0

标签

LLM

智能问答

基准

RHELM 是由 Microsoft 于 2026 年发布的长程记忆能力评估数据集，相关论文成果为 Beyond Static Dialogues: Benchmarking Realistic, Heterogeneous, and Evolving Long-Term Memory，旨在提升大模型在复杂动态场景中的长期记忆、多跳推理与时序信息合成能力，广泛应用于大语言模型长时序记忆评测、 AI 助手长期交互能力验证、大模型多跳推理、时序信息融合与幻觉检测等研究场景。该数据集包含 10 组虚拟角色人设、 1,305 组问答对、 629 个 JSON 格式对话会话、 625 个 TXT 格式邮件线程以及 1,053 个 MD 、 HTML 格式附件文档，配套问题涵盖附件引用、混合推理、事实查询、幻觉检测、信息聚合、时序分析及误导性问题七大核心类型。

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集在 Discord 上讨论

日期

13 天前

数据集组织

论文 URL

2605.31086

许可证

CC BY 4.0

标签

LLM

2 个月前

COCO-2017-Vietnamese 越南语图像检测数据集

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

RHELM 长程记忆评估数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

RHELM 长程记忆评估数据集

相关数据集

Global Climate & Energy Transition 2000 – 2026 全球气候能源数据集

Verbatim Spans 查询条件证据提取数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

DeepCrack 基础设施裂缝检测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

VisCoR-55K 视觉推理数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

PanScale 遥感全色锐化数据集

Emotion-probes 情绪探测数据集

OpenMementos 上下文记忆压缩数据集

MIA 多步推理与决策轨迹数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集

COCO-2017-Vietnamese 越南语图像检测数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

RHELM 长程记忆评估数据集

相关数据集

Global Climate & Energy Transition 2000 – 2026 全球气候能源数据集

Verbatim Spans 查询条件证据提取数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

DeepCrack 基础设施裂缝检测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

VisCoR-55K 视觉推理数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

PanScale 遥感全色锐化数据集

Emotion-probes 情绪探测数据集

OpenMementos 上下文记忆压缩数据集

MIA 多步推理与决策轨迹数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集

COCO-2017-Vietnamese 越南语图像检测数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

Global Climate & Energy Transition 2000 – 2026 全球气候能源数据集

Verbatim Spans 查询条件证据提取数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

DeepCrack 基础设施裂缝检测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

VisCoR-55K 视觉推理数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

PanScale 遥感全色锐化数据集

Emotion-probes 情绪探测数据集

OpenMementos 上下文记忆压缩数据集

MIA 多步推理与决策轨迹数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集

COCO-2017-Vietnamese 越南语图像检测数据集

相关数据集

Global Climate & Energy Transition 2000 – 2026 全球气候能源数据集

Verbatim Spans 查询条件证据提取数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集