Command Palette

Search for a command to run...

16 天前

CritiCal:批判性反馈能否帮助LLM不确定性或置信度校准?

Qing Zong Jiayu Liu Tianshi Zheng Chunyang Li Baixuan Xu Haochen Shi Weiqi Wang Zhaowei Wang Chunkit Chan Yangqiu Song

CritiCal:批判性反馈能否帮助LLM不确定性或置信度校准?

摘要

在高风险领域中,大型语言模型(LLMs)的置信度校准准确性对于安全应用至关重要,清晰的口语化置信表达有助于增强用户信任。传统的置信度校准方法通常模仿参考置信表达,但往往难以捕捉准确评估置信度所需的推理过程。本文提出采用自然语言批评(natural language critiques)作为解决方案,该方法特别适用于置信度校准任务,因为精确的黄金置信标签(gold confidence labels)难以获取,且通常需要多次生成才能获得。本文系统研究了自然语言批评如何提升口语化置信表达,重点探讨以下两个问题:(1)应批评什么?是针对问题的不确定性(question-focused uncertainty),还是针对答案的置信度(answer-specific confidence)?分析表明,在多项选择任务中,置信度更合适;而在开放式任务中,不确定性表现更优。(2)如何进行批评?是采用自省式批评(self-critique)还是批评校准训练(critique calibration training)?我们提出Self-Critique方法,使大型语言模型能够超越单纯准确率,自主地对自身置信度进行批评与优化;同时提出CriticCal——一种新颖的“批评校准”训练方法,利用自然语言批评来提升置信度校准效果,突破传统直接数值优化的局限。实验结果表明,CriticCal显著优于Self-Critique及其他竞争性基线方法,甚至在复杂推理任务中超越其教师模型GPT-4o的表现。此外,CriticCal在分布外(out-of-distribution)场景下也展现出强大的泛化能力,显著提升了大型语言模型的可靠性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供