日期
大小
机构
发布地址
huggingface.co
标签
大模型
分类
文本分类
LongAlign-10k 是清华大学提出的一个针对大模型在长上下文对齐任务中面临的挑战而设计的数据集,包含 10,000 条长指令数据,长度在 8k-64k 之间。
在构建过程中,该数据集首先从书籍、百科全书、学术论文、代码等 9 大不同领域汲取素材, 然后运用 Claude 2.1 大模型,在长篇背景之下生成多样化任务与答案。此数据集旨在测评大模型于长上下文中的表现,及其对 10k-100k 长度任务指令的遵循能力。
做种 1
下载中 1
已完成 98
总下载 231