日期

2 年前

大小

2.79 GB

数据集组织

标签

InfinityInstruct 是由北京智源人工智能研究院 (Beijing Academy of Artificial Intelligence, BAAI) 推出的一个大规模、高质量的开源指令微调数据集项目。该项目的目标是开发一个包含数百万条指令的数据集，以支持大型语言模型的指令跟踪能力，进而提升模型性能。该版本为 InfinityInstruct-3M 指令数据集，预计在 6 月底发布最终版本。

InfinityInstruct 的特点包括：

大规模数据集：项目计划发布千万级别的指令数据，首期已发布 300 万条中英文指令数据。
高质量筛选：智源研究院对现有开源数据进行领域分析和质量筛选，确保数据的高价值，并针对缺乏的领域进行数据增广。
开源社区贡献：数据集构建过程中，开源社区提供了大量指令数据，包括多个来源的数据集，如 OpenHermes-2.5 、 UltraInteract_sft 、 CodeBagel 等。
风险评估与数据生成：项目团队正在进行风险评估和数据生成，预计在 6 月底发布最终版本，包含 1,000 万条指令。
性能提升：当前开源的 300 万条指令数据集已经显示出超越现有数据集如 Mistral 、 Openhermes 等的 SFT (Supervised Fine-Tuning) 数据能力。
未来展望：预计在数据量提升到千万级后，基于该指令微调数据集训练的对话模型能力可达到 GPT-4 水平。 InfinityInstruct 数据集的开发和发布，对于推动大型语言模型的研究和应用具有重要意义，它为大模型提供了丰富的指令数据，有助于提高模型对指令的理解和执行能力。同时，它的开源特性也促进了 AI 社区的协作和知识共享。

InfinityInstruct-3M.torrent

做种 1正在下载 0已完成 249总下载量 330

InfinityInstruct-3M/
- README.md
  2.44 KB
- README.txt
  4.88 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

2 年前

大小

2.79 GB

数据集组织

标签

InfinityInstruct 的特点包括：

大规模数据集：项目计划发布千万级别的指令数据，首期已发布 300 万条中英文指令数据。
高质量筛选：智源研究院对现有开源数据进行领域分析和质量筛选，确保数据的高价值，并针对缺乏的领域进行数据增广。
开源社区贡献：数据集构建过程中，开源社区提供了大量指令数据，包括多个来源的数据集，如 OpenHermes-2.5 、 UltraInteract_sft 、 CodeBagel 等。
风险评估与数据生成：项目团队正在进行风险评估和数据生成，预计在 6 月底发布最终版本，包含 1,000 万条指令。
性能提升：当前开源的 300 万条指令数据集已经显示出超越现有数据集如 Mistral 、 Openhermes 等的 SFT (Supervised Fine-Tuning) 数据能力。
未来展望：预计在数据量提升到千万级后，基于该指令微调数据集训练的对话模型能力可达到 GPT-4 水平。 InfinityInstruct 数据集的开发和发布，对于推动大型语言模型的研究和应用具有重要意义，它为大模型提供了丰富的指令数据，有助于提高模型对指令的理解和执行能力。同时，它的开源特性也促进了 AI 社区的协作和知识共享。

InfinityInstruct-3M.torrent

做种 1正在下载 0已完成 249总下载量 330

InfinityInstruct-3M/
- README.md
  2.44 KB
- README.txt
  4.88 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

Sutra 10B Pretraining 教学训练数据集

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

2 年前

大小

2.79 GB

数据集组织

标签

InfinityInstruct 的特点包括：

大规模数据集：项目计划发布千万级别的指令数据，首期已发布 300 万条中英文指令数据。
高质量筛选：智源研究院对现有开源数据进行领域分析和质量筛选，确保数据的高价值，并针对缺乏的领域进行数据增广。
开源社区贡献：数据集构建过程中，开源社区提供了大量指令数据，包括多个来源的数据集，如 OpenHermes-2.5 、 UltraInteract_sft 、 CodeBagel 等。
风险评估与数据生成：项目团队正在进行风险评估和数据生成，预计在 6 月底发布最终版本，包含 1,000 万条指令。
性能提升：当前开源的 300 万条指令数据集已经显示出超越现有数据集如 Mistral 、 Openhermes 等的 SFT (Supervised Fine-Tuning) 数据能力。
未来展望：预计在数据量提升到千万级后，基于该指令微调数据集训练的对话模型能力可达到 GPT-4 水平。 InfinityInstruct 数据集的开发和发布，对于推动大型语言模型的研究和应用具有重要意义，它为大模型提供了丰富的指令数据，有助于提高模型对指令的理解和执行能力。同时，它的开源特性也促进了 AI 社区的协作和知识共享。

InfinityInstruct-3M.torrent

做种 1正在下载 0已完成 249总下载量 330

InfinityInstruct-3M/
- README.md
  2.44 KB
- README.txt
  4.88 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

Sutra 10B Pretraining 教学训练数据集

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

InfinityInstruct-3M 启动千万级指令微调数据集

InfinityInstruct 的特点包括：

用 AI 构建 AI

HyperAI Newsletters

Command Palette

InfinityInstruct-3M 启动千万级指令微调数据集

InfinityInstruct 的特点包括：

Sutra 10B Pretraining 教学训练数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

InfinityInstruct-3M 启动千万级指令微调数据集

InfinityInstruct 的特点包括：

Sutra 10B Pretraining 教学训练数据集

用 AI 构建 AI

HyperAI Newsletters

Sutra 10B Pretraining 教学训练数据集

Sutra 10B Pretraining 教学训练数据集