HyperAI
Command Palette
Search for a command to run...
LongBlocks 是由里斯本大学、 Instituto de Telecomunicações 联合 TransPerfect 等机构于 2026 年发布的一个长上下文多语言合成数据集。 该数据集包含约 19.4 万条长上下文问答示例,涵盖书籍、网页文本、 Wiki 百科、 arXiv 论文、编程代码及社区问答等长文档语料。
数据字段:
- id: 字符串,唯一示例标识符(仅用于恢复受限书籍数据,其他源为 null)。
- document: 字符串,长源文档内容(受限书籍数据为 null)。
- source: 字符串,来源语料库名称。
- language: 字符串,示例的语言或编程语言。
- question: 字符串,合成的长上下文问题。
- answer: 字符串,经过真实性过滤的参考回答。
- response_Qwen3-Next-80B-A3B / response_Qwen3.5-27B / response_Nemotron-3-Nano-30B-A3B: 字符串,对应教师模型的生成响应。
此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。