日期
大小
机构
发布地址
github.com
标签
大模型
自然语言处理
分类
文本分类
序列猴子是出门问问提供的超大规模语言模型,序列猴子数据集是用于训练序列猴子模型的数据集合,现抽取部分数据集向公众开放。
1.0 版本的数据集涉及领域包括:中文通用文本语料、古诗今译语料、文本生成语料。其中中文通用文本语料是序列猴子训练集中抽取了 1,300 万份数据面向公众开放。古诗今译开源数据集是古文和现代文翻译数据集,开放 68 万首。文本生成微调数据集开放了 5 千条问答数据,可用于字词错误检测、字词错误纠正及文本润色任务。
做种 3
下载中 1
已完成 129
总下载 383