日期

2 年前

大小

84.34 MB

数据集组织

许可证

CC BY-SA 4.0

标签

大多数现有的开源 LLM（例如 LLaMA-2）推理过程都比较复杂，在解决数学问题方面仍然不能令人满意。为了弥补这一差距，研究人员提出了 MetaMath，这是一种专门从事数学推理的微调语言模型。为了提升模型的正向和逆向推理能力，剑桥、港科大、华为的研究者基于两个常用的数学数据集（GSM8K 和 MATH）提出了 MetaMathQA 数据集：一个覆盖面广、质量高的数学推理数据集。 MetaMathQA 由 395K 个大语言模型生成的正向逆向数学问答对组成。他们在 MetaMathQA 数据集上基于 LLaMA-2 微调得到专注于数学推理（正向和逆向）的大语言模型 MetaMath，在数学推理数据集上达到了 SOTA 。 MetaMathQA 数据集和不同规模的 MetaMath 模型已开源供研究人员使用。 MetaMathQA 包含四种数据增强的方法：

Answer Augmentation（答案增强）：给定问题，通过大语言模型生成能得到正确结果的思维链作为数据增广。
Rephrasing Question（问题改写增强）：给定元问题，通过大语言模型重写问题并生成得到正确结果的思维链作为数据增广。
FOBAR Question（FOBAR 逆向问题增强）：给定元问题，通过掩码条件中的数字为 x，给定原有答案并反推×来产生逆向问题，并基于该逆向问题生成正确的思维链过程来进行数据增广
Self-Verification Question（Self-Verification 逆向问题增强）：在 FOBAR 的基础上，通过大语言模型改写逆向问题部分为陈述的语句来进行数据增广。

Citation

@article{yu2023metamath, title={MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models}, author={Yu, Longhui and Jiang, Weisen and Shi, Han and Yu, Jincheng and Liu, Zhengying and Zhang, Yu and Kwok, James T and Li, Zhenguo and Weller, Adrian and Liu, Weiyang}, journal={arXiv preprint arXiv:2309.12284}, year={2023} }

MetaMathQA.torrent

做种 1正在下载 0已完成 305总下载量 805

MetaMathQA/
- README.md
  2.44 KB
- README.txt
  4.88 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

下载

在 Discord 上讨论

日期

2 年前

大小

84.34 MB

数据集组织

许可证

CC BY-SA 4.0

标签

Answer Augmentation（答案增强）：给定问题，通过大语言模型生成能得到正确结果的思维链作为数据增广。
Rephrasing Question（问题改写增强）：给定元问题，通过大语言模型重写问题并生成得到正确结果的思维链作为数据增广。
FOBAR Question（FOBAR 逆向问题增强）：给定元问题，通过掩码条件中的数字为 x，给定原有答案并反推×来产生逆向问题，并基于该逆向问题生成正确的思维链过程来进行数据增广
Self-Verification Question（Self-Verification 逆向问题增强）：在 FOBAR 的基础上，通过大语言模型改写逆向问题部分为陈述的语句来进行数据增广。