Alpaca-Cleaned 数据集是对斯坦福大学于 2024 年发布的原始 Alpaca 数据集的清理版本。原始 Alpaca 是一个包含 52,000 条指令和演示的数据集,这些指令和演示由 OpenAI (text-davinci-003) 的引擎生成。此指令数据可用于对语言模型进行指令调整,从而使语言模型更好地遵循指令。
该数据集解决了原始 Alpaca 中的一些问题,比如幻觉性回答、合并指令、空输出和不一致的输入字段等,从而提高了数据的质量和一致性。 Alpaca-Cleaned 数据集的应用场景多样,包括文本生成、问答系统、自然语言理解和代码理解与生成等。其特点包括质量优化、性能提升、模型资源丰富以及开放源代码与社区支持,鼓励社区参与,持续更新和完善,推动 NLP 领域的发展。
做种 1
下载中 0
已完成 56
总下载 64