谷歌研究揭示:大型语言模型在对话中易受反论影响,可能放弃正确答案
谷歌DeepMind和伦敦大学学院的一项新研究揭示了大型语言模型(LLMs)如何形成、保持以及失去对答案的信心。这项研究发现了LLMs与人类认知偏差之间的显著相似性和差异。研究的核心在于,LLMs可能会对其初始答案表现出过度自信,但在接收到反论,即使是错误的反论时,会迅速失去信心并改变答案。这表明,在构建多轮对话的人工智能系统时,必须考虑这些行为特征的影响。 为了测试LLMs在接收外部建议后如何更新其置信度并决定是否更改答案,研究人员设计了一个受控实验。实验中,“回答LLM”首先被问及一个二选一的问题,如选择某个城市的正确纬度。作出初步选择后,它会收到另一个虚构的“建议LLM”的意见,这个意见附有明确的准确性评级(例如70%准确),并且可能支持、反对或中立于回答LLM的初始选择。最后,回答LLM需要做出最终选择。实验的一个关键部分是控制LLMs是否能看到自己最初的答案,从而隔离过去的决策记忆如何影响当前的置信度。 研究结果显示,当LLMs能看到其最初的答案时,它们改变答案的可能性较小,反之则较大。这类似于人类决策中的“选择支持偏差”,即人们在看到自己的最初选择时更倾向于坚持。此外,研究还发现,当面对反驳建议时,LLMs更倾向于改变原有的答案,而当建议和支持一致时,则较少改变。不过,LLMs对外部建议异常敏感,即使建议是错的,也会大幅调整置信度。 这种对外部反论的过度敏感行为不同于人类通常的表现,人类往往更倾向于确认现有的信念。研究人员推测,这种现象可能是由于诸如“基于人类反馈的强化学习”(RLHF)等训练技术导致的,鼓励模型对用户输入过于顺从,即所谓的“谄媚现象”。 对于企业应用而言,这意味着在人与AI的长时间对话中,最新的信息可能会对LLMs的推理产生不成比例的影响,特别是当信息与其初始答案相矛盾时,可能导致其放弃原本正确的答案。幸运的是,研究表明,我们可以通过操控LLMs的记忆来减轻这些不良偏差,这是人类无法做到的。例如,可以在长时间对话中定期进行总结,将关键事实和决策中立地呈现出来,剥离每个决策是由谁做出的信息。这样,新的概括化对话可以从头开始推理,有助于避免在长时间对话中可能出现的各种偏差。 随着LLMs越来越多地融入企业的工作流程,理解其决策过程的细微差别不再是可选项。基础研究的成果可以帮助开发者预见到这些内在偏差,并采取相应的纠正措施,从而开发出不仅更加智能,而且更加稳健和可靠的应用程序。 业内人士认为,这项研究为构建更可靠的多轮对话AI系统提供了重要的理论基础和技术指导。它不仅揭开了LLMs认知偏差的面纱,也为未来的企业应用开辟了新的可能性。谷歌DeepMind作为人工智能领域的领头羊,其研究成果一直是学术界和工业界的风向标。伦敦大学学院则以其在心理学和认知科学研究方面的卓越成就著称,此次合作无疑进一步加深了对LLMs行为的理解。