研究人员提出“交互式分解”新方法,显著提升AI对齐中人类反馈质量
在人工智能对齐研究中,提升人类反馈质量是确保大模型行为符合人类价值观的关键环节。当前主流方法如基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO)依赖于人工对长篇文本进行对比判断,但这一过程常因认知负荷过重而导致判断偏差。为应对这一挑战,英国剑桥大学副研究员史丹青博士及其团队提出了一种名为DxHF的新方法,通过“交互式分解”技术显著优化人类反馈流程。 该方法的核心理念源于“分解原则”——将复杂的多维度判断任务拆解为若干个独立、简洁的语义单元,使用户能够逐一评估每个陈述的优劣,再整合结果得出整体偏好。研究团队设计了一套视觉辅助界面,将长文本自动分解为可快速浏览的短句,并通过不透明度变化突出关键差异,同时以可视化连接线标识语义相似的片段,帮助用户高效识别核心区别。 实验结果显示,DxHF在提升反馈准确性方面表现突出,平均准确率提升约5%,尤其在用户判断不确定时,准确率提升达6.4%。尽管反馈时间略有增加,但用户决策信心明显增强,认知负担显著降低。研究还通过仿真与大规模在线众包实验验证了该方法的有效性,参与者普遍反馈界面灵活、易用,既能快速完成简单比较,又能深入探索复杂文本细节。 该研究分为三个阶段:首先基于人机交互理论,识别出反馈质量受限于认知负荷的根本问题;其次通过反复迭代设计,实现兼具信息完整性和可读性的交互原型;最后借助仿真与真实用户实验,全面验证技术效果。设计灵感源于物理折叠手册的交互隐喻,使用户可在“整体浏览”与“局部展开”间自由切换,兼顾全局理解与细节分析。 审稿人认为,该研究从人机交互视角切入AI对齐难题,具有高度前沿性与普适价值。其方法不仅适用于大模型训练中的反馈采集,还可推广至法律文书比对、政策分析、医疗文本评估等需要精细文本比较的领域。 该成果已被人机交互领域顶级会议UIST 2025接收,将于2025年9月在韩国釜山举行。史丹青博士目前任职于剑桥大学,研究聚焦于人智交互与AI对齐,此前曾就职于芬兰人工智能中心,博士毕业于同济大学。他与芬兰Aalto大学、瑞典KTH大学及瑞士苏黎世联邦理工学院的团队长期合作,致力于推动AI系统更精准地理解人类意图。此次研究是在苏黎世联邦理工访问期间,与Mennatallah El-Assady教授和程富瑞博士联合完成,融合了双方在交互式机器学习与可解释性分析方面的深厚积累,标志着交互式AI对齐技术从机器人领域向大模型文本理解的重要延伸。
