Command Palette

Search for a command to run...

1 个月前

边界推理:通过推理时反思提升规范对齐

Haoran Zhang Yafu Li Xuyang Hu Dongrui Liu Zhilin Wang Bo Li Yu Cheng

边界推理:通过推理时反思提升规范对齐

摘要

大型语言模型(LLMs)在各类真实场景中的应用日益广泛,每个场景均受用户或组织定制的特定行为规范与安全规范(spec)所约束。这些规范可分为安全规范(safety-spec)与行为规范(behavioral-spec),其内容因场景而异,并随用户偏好和需求的变化而动态演进。本文将这一挑战形式化为“规范对齐”(specification alignment),重点关注语言模型在行为与安全两个维度上遵循动态、场景化规范的能力。为应对该挑战,我们提出 Align3,一种轻量级方法,通过在测试时引入分层反思与修正机制(Test-Time Deliberation, TTD),实现对规范边界的推理。此外,我们构建了 SpecBench——一个统一的基准测试平台,用于衡量规范对齐能力,涵盖5个典型场景、103项规范及1,500个测试提示(prompts)。我们在15个推理模型与18个指令微调模型上,结合多种TTD方法(包括 Self-Refine、TPO 和 MoreThink)进行了实验,得出三项关键发现:(i)测试时的反思机制显著提升规范对齐能力;(ii)Align3 在几乎无额外计算开销的前提下,有效推进了安全与有用性之间的权衡边界;(iii)SpecBench 能够有效揭示模型在规范对齐方面的性能差距。上述结果表明,测试时反思(test-time deliberation)是一种极具潜力的策略,可用于在真实世界中有效推理和遵循复杂的规范边界。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供