17 天前

思维链数据集：通过思维链微调提升语言模型的零样本与少样本学习能力

Seungone Kim, Se June Joo, Doyoung Kim, Joel Jang, Seonghyeon Ye, Jamin Shin, Minjoon Seo

摘要

参数量小于1000亿的语言模型（LMs）在解决未见过的任务时，其链式思维（Chain-of-Thought, CoT）推理能力普遍弱于大型语言模型。在本研究中，我们旨在通过使用CoT推理过程进行指令微调（instruction tuning），赋予小型语言模型逐步推理的能力。为实现这一目标，我们首先构建了一个新的指令微调数据集——CoT Collection，该数据集在现有Flan Collection（仅包含9个CoT任务）的基础上，新增了跨越1060个任务的184万条推理过程（rationales），显著扩展了CoT数据的覆盖范围。实验结果表明，使用CoT Collection对Flan-T5（3B与11B参数版本）进行微调，能够显著提升小型语言模型在未见任务上的CoT推理能力。在BIG-Bench-Hard（BBH）基准测试中，零样本（zero-shot）任务准确率平均提升分别为+4.34%（Flan-T5 3B）和+2.60%（Flan-T5 11B）。此外，我们还发现，采用CoT Collection进行指令微调，可使语言模型在4个领域特定任务上展现出更强的少样本学习（few-shot learning）能力，准确率分别提升+2.24%（Flan-T5 3B）和+2.37%（Flan-T5 11B），甚至在使用演示样本（demonstrations）达到最大长度时，仍优于ChatGPT，性能领先达+13.98%。本研究的代码、CoT Collection数据集以及模型检查点均已公开发布，供学术界和工业界使用。