HyperAI超神经

M2Lingual 多语言多轮次指令微调数据集

日期

10 个月前

大小

649.13 MB

机构

ServiceNow Research
University of Illinois at Chicago

发布地址

huggingface.co

M2Lingual 是一个多语言、多轮次指令微调(Instruction Fine-Tuning, IFT)数据集,旨在提升大型语言模型(Large Language Models, LLMs)在遵循指令方面的性能,特别是在多样化的语言和任务上。该数据集于 2024 年由 ServiceNow 和伊利诺伊大学芝加哥分校的研究团队提出。

M2Lingual 数据集的主要特点包括:

  1. 多语言覆盖:M2Lingual 涵盖了 70 种不同的语言,为低资源语言提供了更多的训练数据。
  2. 多轮次对话:数据集包含多轮次的指令和响应,增强了模型在处理复杂对话场景中的能力。
  3. 任务导向:M2Lingual 包含 17 种自然语言处理 (NLP) 任务,如摘要、问题回答等,以及一般性的指令-响应对。
  4. 大规模:数据集包含共计 182,000 个指令微调对,提供了丰富的训练样本。
  5. 合成数据集:M2Lingual 是完全合成的数据集,使用特定的进化分类法 (Evol taxonomy) 生成,确保了数据的多样性和复杂性。
  6. 性能提升:使用 M2Lingual 微调的 LLM 在多种评估基准上显示出优于现有多语言 IFT 数据集的性能。

M2Lingual 的提出,为多语言、多轮次的指令对齐问题提供了新的解决方案,有助于提升大型语言模型在多语言环境下的实用性和准确性

M2Lingual.torrent
做种 1正在下载 1已完成 102总下载次数 127
  • M2Lingual/
    • README.md
      2.11 KB
    • README.txt
      4.22 KB
      • data/
        • M2Lingual.zip
          649.13 MB