Command Palette
Search for a command to run...
Ammar Khairi Daniel Dsouza Ye Shen Julia Kreutzer Sara Hooker

摘要
近期在大规模语言模型(LLMs)领域的进展已经将研究重点转向了推理计算的扩展,即在不重新训练模型的情况下提高性能。一种常见的方法是在并行模式下采样多个输出,然后从中选择一个作为最终输出。然而,迄今为止的研究主要集中在英语以及数学和编程等少数领域。相比之下,我们更加关注适用于开放性任务、形式可验证任务及多种语言的技术。在这项工作中,我们研究了如何在多语言、多任务环境下稳健地扩展推理计算以应对开放性生成任务。我们的研究表明,基于温度变化的采样策略和选择策略必须进行调整,以适应不同的领域和多样的语言环境。我们评估了现有的选择方法,发现那些在英语中有效的策略往往无法跨语言推广。为此,我们提出了一系列专门针对多语言和多任务推理场景的新颖采样和选择策略,并展示了这些策略在不同语言和任务中的显著收益。特别是,我们的组合采样和选择方法使得80亿参数模型在m-ArenaHard-v2.0提示上的胜率平均提高了6.8个百分点,相对于Gemini等专有模型表现优异。在更大规模的模型中,配备我们方法的Command-A(1110亿参数模型)仅通过五次采样就比单次解码在相同基准上实现了9.0个百分点的胜率提升,这是一项成本极低但效果显著的改进。我们的结果强调了在推理计算中采用语言和任务感知方法的重要性,旨在使性能提升惠及那些代表性不足的语言。