
摘要
逐步生成“思维链”(chain-of-thought)推理过程,能够显著提升语言模型在数学推理或常识问答等复杂推理任务上的表现。然而,当前促使语言模型生成推理过程,通常需要构建大规模的推理数据集,或在仅使用少样本推理(few-shot inference)的情况下牺牲模型准确率。为此,我们提出一种新技术——“自教推理器”(Self-Taught Reasoner, STaR),该技术通过迭代利用少量推理示例和一个大规模无推理标注的数据集,逐步提升模型执行越来越复杂推理的能力。STaR 的核心是一个简单的循环机制:首先,基于少量推理示例作为提示(prompt),生成大量问题的推理过程并得出答案;若生成的答案错误,则以正确答案为条件,重新尝试生成更合理的推理过程;随后,对所有最终得出正确答案的推理过程进行微调;最后,重复上述步骤。实验表明,相较于直接微调模型以预测最终答案的方法,STaR 在多个数据集上的性能均显著提升,其表现甚至可与在常识问答数据集(CommonsenseQA)上对一个规模大 30 倍的先进语言模型进行微调相媲美。因此,STaR 使模型能够通过自身生成的推理过程进行自我学习与迭代优化,实现持续的性能提升。