17 天前

思维链数据集:通过思维链微调提升语言模型的零样本与少样本学习能力

Seungone Kim, Se June Joo, Doyoung Kim, Joel Jang, Seonghyeon Ye, Jamin Shin, Minjoon Seo
思维链数据集:通过思维链微调提升语言模型的零样本与少样本学习能力
摘要

参数量小于1000亿的语言模型(LMs)在解决未见过的任务时,其链式思维(Chain-of-Thought, CoT)推理能力普遍弱于大型语言模型。在本研究中,我们旨在通过使用CoT推理过程进行指令微调(instruction tuning),赋予小型语言模型逐步推理的能力。为实现这一目标,我们首先构建了一个新的指令微调数据集——CoT Collection,该数据集在现有Flan Collection(仅包含9个CoT任务)的基础上,新增了跨越1060个任务的184万条推理过程(rationales),显著扩展了CoT数据的覆盖范围。实验结果表明,使用CoT Collection对Flan-T5(3B与11B参数版本)进行微调,能够显著提升小型语言模型在未见任务上的CoT推理能力。在BIG-Bench-Hard(BBH)基准测试中,零样本(zero-shot)任务准确率平均提升分别为+4.34%(Flan-T5 3B)和+2.60%(Flan-T5 11B)。此外,我们还发现,采用CoT Collection进行指令微调,可使语言模型在4个领域特定任务上展现出更强的少样本学习(few-shot learning)能力,准确率分别提升+2.24%(Flan-T5 3B)和+2.37%(Flan-T5 11B),甚至在使用演示样本(demonstrations)达到最大长度时,仍优于ChatGPT,性能领先达+13.98%。本研究的代码、CoT Collection数据集以及模型检查点均已公开发布,供学术界和工业界使用。

思维链数据集:通过思维链微调提升语言模型的零样本与少样本学习能力 | 最新论文 | HyperAI超神经