Command Palette
Search for a command to run...
Nicolas Boizard Hippolyte Gisserot-Boukhlef Kevin El-Haddad Céline Hudelot Pierre Colombo

摘要
具备推理能力的大规模语言模型(LLMs)已在众多任务上取得了最先进的性能。尽管其在实践中表现出色,但推理能力在哪些任务上有效、模型规模达到何种程度时推理才真正发挥作用,以及相关的训练与推理成本等问题,仍缺乏深入探索。在本研究中,我们采用一种合成数据蒸馏框架,开展了一项大规模的监督式实验。我们在涵盖数学导向任务与通用任务的广泛场景下,对比了不同规模的指令微调(Instruction Fine-Tuning, IFT)模型与推理模型,评估了多项选择题与开放式问答两种格式的表现。分析结果表明,推理能力始终能持续提升模型性能,往往可达到甚至超越显著更大的IFT系统。值得注意的是,虽然在训练与推理成本方面,IFT模型仍保持帕累托最优,但随着模型规模的扩大,推理模型的价值日益凸显,能够在推理密集型任务和开放式任务上突破IFT模型的性能瓶颈。