HyperAI超神经

DeepCritic:使用大型语言模型进行故意批评

Wenkai Yang, Jingwen Chen, Yankai Lin, Ji-Rong Wen
发布日期: 5/7/2025
DeepCritic:使用大型语言模型进行故意批评
摘要

随着大型语言模型(LLM)的快速发展,对其输出提供准确的反馈和可扩展的监督成为一个紧迫和关键的问题。利用LLM作为批评模型来实现自动化监督是一个有前途的解决方案。在这项工作中,我们专注于研究和提高法学硕士的数学批评能力。目前的法学硕士批评家对每个步骤的批评都过于浅薄和肤浅,导致判断准确性低,并努力为法学硕士生成器提供足够的反馈来纠正错误。为了解决这个问题,我们提出了一个新颖而有效的两阶段框架,以培养能够刻意批评数学解决方案的每个推理步骤的法学硕士批评家。在第一阶段,我们利用Qwen2.5-72B-Instruct生成4.5K长形式批评,作为监督微调的种子数据。每个种子批评都由刻意的逐步批评组成,其中包括多角度验证以及对每个推理步骤的初始批评的深入批评。然后,我们使用来自PRM800K的现有人类标记数据或通过基于蒙特卡洛采样的正确性估计获得的自动注释数据对微调模型进行强化学习,以进一步激励其批评能力。我们基于Qwen2.5-7B-Instruct开发的批评模型不仅在各种错误识别基准上大大优于现有的LLM批评(包括相同尺寸的DeepSeek-R1-蒸馏模型和GPT-4o),而且更有效地帮助LLM生成器通过更详细的反馈完善错误步骤。