HyperAIHyperAI

Command Palette

Search for a command to run...

LongBlocks 长上下文多语言问答数据集

日期

1 个月前

许可证

CC BY-SA 4.0

LongBlocks 是由里斯本大学、 Instituto de Telecomunicações 联合 TransPerfect 等机构于 2026 年发布的一个长上下文多语言合成数据集。 该数据集包含约 19.4 万条长上下文问答示例,涵盖书籍、网页文本、 Wiki 百科、 arXiv 论文、编程代码及社区问答等长文档语料。

数据字段:

  • id: 字符串,唯一示例标识符(仅用于恢复受限书籍数据,其他源为 null)。
  • document: 字符串,长源文档内容(受限书籍数据为 null)。
  • source: 字符串,来源语料库名称。
  • language: 字符串,示例的语言或编程语言。
  • question: 字符串,合成的长上下文问题。
  • answer: 字符串,经过真实性过滤的参考回答。
  • response_Qwen3-Next-80B-A3B / response_Qwen3.5-27B / response_Nemotron-3-Nano-30B-A3B: 字符串,对应教师模型的生成响应。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供