M2Lingual 多语言多轮次指令微调数据集
M2Lingual 是一个多语言、多轮次指令微调(Instruction Fine-Tuning, IFT)数据集,旨在提升大型语言模型(Large Language Models, LLMs)在遵循指令方面的性能,特别是在多样化的语言和任务上。该数据集于 2024 年由 ServiceNow 和伊利诺伊大学芝加哥分校的研究团队提出。
M2Lingual 数据集的主要特点包括:
- 多语言覆盖:M2Lingual 涵盖了 70 种不同的语言,为低资源语言提供了更多的训练数据。
- 多轮次对话:数据集包含多轮次的指令和响应,增强了模型在处理复杂对话场景中的能力。
- 任务导向:M2Lingual 包含 17 种自然语言处理 (NLP) 任务,如摘要、问题回答等,以及一般性的指令-响应对。
- 大规模:数据集包含共计 182,000 个指令微调对,提供了丰富的训练样本。
- 合成数据集:M2Lingual 是完全合成的数据集,使用特定的进化分类法 (Evol taxonomy) 生成,确保了数据的多样性和复杂性。
- 性能提升:使用 M2Lingual 微调的 LLM 在多种评估基准上显示出优于现有多语言 IFT 数据集的性能。
M2Lingual 的提出,为多语言、多轮次的指令对齐问题提供了新的解决方案,有助于提升大型语言模型在多语言环境下的实用性和准确性
M2Lingual.torrent
做种 1正在下载 1已完成 102总下载次数 127