InfinityInstruct-3M 启动千万级指令微调数据集

日期

7 个月前

大小

2.79 GB

机构

发布地址

huggingface.co

InfinityInstruct 是由北京智源人工智能研究院 (Beijing Academy of Artificial Intelligence, BAAI) 推出的一个大规模、高质量的开源指令微调数据集项目。该项目的目标是开发一个包含数百万条指令的数据集,以支持大型语言模型的指令跟踪能力,进而提升模型性能。

该版本为 InfinityInstruct-3M 指令数据集,预计在 6 月底发布最终版本。

InfinityInstruct 的特点包括:

  1. 大规模数据集:项目计划发布千万级别的指令数据,首期已发布 300 万条中英文指令数据。
  2. 高质量筛选:智源研究院对现有开源数据进行领域分析和质量筛选,确保数据的高价值,并针对缺乏的领域进行数据增广。
  3. 开源社区贡献:数据集构建过程中,开源社区提供了大量指令数据,包括多个来源的数据集,如 OpenHermes-2.5 、 UltraInteract_sft 、 CodeBagel 等。
  4. 风险评估与数据生成:项目团队正在进行风险评估和数据生成,预计在 6 月底发布最终版本,包含 1,000 万条指令。
  5. 性能提升:当前开源的 300 万条指令数据集已经显示出超越现有数据集如 Mistral 、 Openhermes 等的 SFT (Supervised Fine-Tuning) 数据能力。
  6. 未来展望:预计在数据量提升到千万级后,基于该指令微调数据集训练的对话模型能力可达到 GPT-4 水平。

InfinityInstruct 数据集的开发和发布,对于推动大型语言模型的研究和应用具有重要意义,它为大模型提供了丰富的指令数据,有助于提高模型对指令的理解和执行能力。同时,它的开源特性也促进了 AI 社区的协作和知识共享。

InfinityInstruct-3M.torrent

做种 1

下载中 1

已完成 55

总下载 76

  • InfinityInstruct-3M/
    • README.md
      2.44 KB
    • README.txt
      4.88 KB
      • data/
        • Infinity-Instruct.zip
          2.79 GB