Command Palette
Search for a command to run...

摘要
大型语言模型(LLMs)在处理复杂任务时,越来越多地依赖思维链(Chain-of-Thought, CoT)推理以提升准确性。然而,持续生成冗长的推理过程效率低下,导致token消耗过多,推理成本显著增加。本文提出了一种混合策略优化框架(即HiPO),用于实现自适应的推理控制,使LLM能够智能地决定在何时进行详尽推理(Think-on),在何时直接作答(Think-off)。具体而言,HiPO结合了混合数据流水线——该流水线提供成对的Think-on与Think-off响应——以及一种混合强化学习奖励机制,该机制在保证准确性的前提下平衡推理效率,同时避免对详尽推理的过度依赖。在数学与编程基准测试中的实验结果表明,HiPO能够在显著减少token长度的同时,保持甚至提升任务准确性。最后,我们希望HiPO能够成为一种有原则的高效自适应推理方法,推动面向推理的大型语言模型在真实世界中资源敏感场景下的实际部署。