Command Palette
Search for a command to run...
CL-bench 上下文学习评估基准
CL-bench 是由腾讯混元团队联合复旦大学于 2026 年发布的一个大语言模型上下文学习(Context Learning)能力评估基准数据集,相关论文成果为 CL-bench: A Benchmark for Context Learning,旨在测试模型是否能够在不依赖预训练知识的情况下,仅通过给定上下文学习新的规则、概念或领域知识,并将其应用于后续任务。
该数据集包含 500 个复杂上下文场景,覆盖 1,899 个具体任务,并配套提供 31,607 条细粒度评估准则(rubrics)。每个任务以多轮对话形式组织,涵盖规则推理、领域知识学习、复杂指令理解等多种上下文学习场景,评估模型对上下文中新信息的理解、归纳与迁移能力。