日期

2 年前

大小

649.13 MB

数据集组织

论文 URL

标签

M2Lingual 是一个多语言、多轮次指令微调（Instruction Fine-Tuning, IFT）数据集，旨在提升大型语言模型（Large Language Models, LLMs）在遵循指令方面的性能，特别是在多样化的语言和任务上。该数据集于 2024 年由 ServiceNow 和伊利诺伊大学芝加哥分校的研究团队提出。 M2Lingual 数据集的主要特点包括：

多语言覆盖：M2Lingual 涵盖了 70 种不同的语言，为低资源语言提供了更多的训练数据。
多轮次对话：数据集包含多轮次的指令和响应，增强了模型在处理复杂对话场景中的能力。
任务导向：M2Lingual 包含 17 种自然语言处理 (NLP) 任务，如摘要、问题回答等，以及一般性的指令-响应对。
大规模：数据集包含共计 182,000 个指令微调对，提供了丰富的训练样本。
合成数据集：M2Lingual 是完全合成的数据集，使用特定的进化分类法 (Evol taxonomy) 生成，确保了数据的多样性和复杂性。
性能提升：使用 M2Lingual 微调的 LLM 在多种评估基准上显示出优于现有多语言 IFT 数据集的性能。 M2Lingual 的提出，为多语言、多轮次的指令对齐问题提供了新的解决方案，有助于提升大型语言模型在多语言环境下的实用性和准确性

M2Lingual.torrent

做种 1正在下载 0已完成 226总下载量 304

M2Lingual/
- README.md
  2.11 KB
- README.txt
  4.22 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

2 年前

大小

649.13 MB

数据集组织

论文 URL

标签

多语言覆盖：M2Lingual 涵盖了 70 种不同的语言，为低资源语言提供了更多的训练数据。
多轮次对话：数据集包含多轮次的指令和响应，增强了模型在处理复杂对话场景中的能力。
任务导向：M2Lingual 包含 17 种自然语言处理 (NLP) 任务，如摘要、问题回答等，以及一般性的指令-响应对。
大规模：数据集包含共计 182,000 个指令微调对，提供了丰富的训练样本。
合成数据集：M2Lingual 是完全合成的数据集，使用特定的进化分类法 (Evol taxonomy) 生成，确保了数据的多样性和复杂性。
性能提升：使用 M2Lingual 微调的 LLM 在多种评估基准上显示出优于现有多语言 IFT 数据集的性能。 M2Lingual 的提出，为多语言、多轮次的指令对齐问题提供了新的解决方案，有助于提升大型语言模型在多语言环境下的实用性和准确性

M2Lingual.torrent

做种 1正在下载 0已完成 226总下载量 304

M2Lingual/
- README.md
  2.11 KB
- README.txt
  4.22 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

Sutra 10B Pretraining 教学训练数据集

3 个月前

Groundsource 全球洪水事件数据集

3 个月前

THINGS-MEG 脑磁图数据集

5 个月前

THINGS-fMRI 功能磁共振成像数据集

5 个月前

RubricHub_v1 多领域生成任务数据集

5 个月前

GroundingME 复杂场景理解评测数据集

6 个月前

MCIF 多模态跨语言指令跟随数据集

6 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

用 AI 构建 AI

HyperAI Newsletters

相关数据集

Sutra 10B Pretraining 教学训练数据集

Groundsource 全球洪水事件数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

RubricHub_v1 多领域生成任务数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

Sutra 10B Pretraining 教学训练数据集

Groundsource 全球洪水事件数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

RubricHub_v1 多领域生成任务数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

Sutra 10B Pretraining 教学训练数据集

Groundsource 全球洪水事件数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

RubricHub_v1 多领域生成任务数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

相关数据集

Sutra 10B Pretraining 教学训练数据集

Groundsource 全球洪水事件数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

RubricHub_v1 多领域生成任务数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

Command Palette

M2Lingual 多语言多轮次指令微调数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

M2Lingual 多语言多轮次指令微调数据集

相关数据集

Sutra 10B Pretraining 教学训练数据集

Groundsource 全球洪水事件数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

RubricHub_v1 多领域生成任务数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

M2Lingual 多语言多轮次指令微调数据集

相关数据集

Sutra 10B Pretraining 教学训练数据集

Groundsource 全球洪水事件数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

RubricHub_v1 多领域生成任务数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

Sutra 10B Pretraining 教学训练数据集

Groundsource 全球洪水事件数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

RubricHub_v1 多领域生成任务数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

相关数据集

Sutra 10B Pretraining 教学训练数据集

Groundsource 全球洪水事件数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

RubricHub_v1 多领域生成任务数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集