InfinityInstruct 是由北京智源人工智能研究院 (Beijing Academy of Artificial Intelligence, BAAI) 推出的一个大规模、高质量的开源指令微调数据集项目。该项目的目标是开发一个包含数百万条指令的数据集,以支持大型语言模型的指令跟踪能力,进而提升模型性能。
该版本为 InfinityInstruct-3M 指令数据集,预计在 6 月底发布最终版本。
InfinityInstruct 的特点包括:
- 大规模数据集:项目计划发布千万级别的指令数据,首期已发布 300 万条中英文指令数据。
- 高质量筛选:智源研究院对现有开源数据进行领域分析和质量筛选,确保数据的高价值,并针对缺乏的领域进行数据增广。
- 开源社区贡献:数据集构建过程中,开源社区提供了大量指令数据,包括多个来源的数据集,如 OpenHermes-2.5 、 UltraInteract_sft 、 CodeBagel 等。
- 风险评估与数据生成:项目团队正在进行风险评估和数据生成,预计在 6 月底发布最终版本,包含 1,000 万条指令。
- 性能提升:当前开源的 300 万条指令数据集已经显示出超越现有数据集如 Mistral 、 Openhermes 等的 SFT (Supervised Fine-Tuning) 数据能力。
- 未来展望:预计在数据量提升到千万级后,基于该指令微调数据集训练的对话模型能力可达到 GPT-4 水平。
InfinityInstruct 数据集的开发和发布,对于推动大型语言模型的研究和应用具有重要意义,它为大模型提供了丰富的指令数据,有助于提高模型对指令的理解和执行能力。同时,它的开源特性也促进了 AI 社区的协作和知识共享。