HyperAI超神经
Back to Headlines

牛津研究揭示:人类与聊天机器人合作在医疗诊断中表现不佳

2 days ago

2025年6月13日,牛津大学的一项研究揭示了在医疗聊天机器人测试中不可或缺的人类因素。尽管大型语言模型(LLMs)已经显示出惊人的医学知识掌握能力,甚至在某些情况下超过了人类医生的表现,但在真实应用中,这些模型表现却并不理想。 研究表明,当人类参与者通过LLMs进行自我诊断时,正确识别病情的比例仅为34.5%,而仅靠自己通常方法进行诊断的对照组则达到了47%。此外,人类与LLMs互动后选择正确治疗方案的比例也更低,仅为44.2%,而独立运行的LLMs能达到56.3%。这引发了对于LLMs是否适合提供医疗建议以及我们如何评估其真实应用效果的质疑。 研究人员由亚当·马赫迪博士领导,招募了1298名参与者,让他们扮演患者的角色,使用LLMs来诊断自己的病情并决定适当的治疗级别。每个参与者都收到了详细的场景描述和相关病史,例如一个工程专业的学生夜间外出后出现剧烈头痛的情况。虽然LLMs能够识别出94.9%的相关病症,但参与者在交互过程中提供了不完整的信息或误解了LLM的提示,导致最终诊断结果不准确。 例如,在一个假设的胆石症病例中,参与者只提到严重的腹部疼痛持续一小时,可能会引起呕吐,但没有说明疼痛的具体位置、严重程度和频率。结果,LLM误诊为消化不良,参与者也接受了这个错误的诊断。 这项研究不仅揭示了LLM在真实交互中的局限性,还强调了评估其性能时需要考虑人类因素的重要性。现有的评估方法通常是基于标准问题和答案的考试,而非实际的用户交互,这导致了性能评估与实际应用之间的巨大差距。 研究人员还尝试使用另一个LLM来模拟患者并与诊断用的LLM互动。结果显示,这些模拟患者在诊断准确率上远高于真人,达到了60.7%。这一发现进一步证明了真实的人类参与者与LLMs的交互方式与其设计初衷存在差异,从而影响了最终的结果。 北卡罗来纳大学教堂山分校文艺复兴计算研究所(RENCI)的用户体验专家纳塔莉·佛克海默表示,这一研究结果并不令人意外。早年的互联网搜索也有类似的问题,即工具本身的性能依赖于提问的质量。她指出,现实生活中,患者提供的信息往往不完整或不准确,而医生经过专门培训后能够有效获取这些信息。LLM虽然具备强大的知识库,但在与人类交互时,仍然难以应对复杂的实际情况。 因此,佛克海默建议企业在部署LLM之前,应该重点考虑人机交互的方式,而不是仅仅依赖于传统的考试成绩。她强调,理解目标受众、他们的目标和用户体验是成功的关键。精心策划的培训材料和互动流程可以显著提高LLM的实际应用效果。 她表示:“如果客户没有按照我们预想的方式行事,我们不能责怪客户。我们需要深入探究背后的原因。” 这不仅仅是技术问题,而是设计和技术人员的背景、假设、优势和盲点被内化到技术解决方案中的结果。 综上所述,牛津大学的研究提醒我们,尽管LLMs在医学知识方面表现出色,但其实际应用效果受制于人类交互的质量。企业在评估和部署这些模型时,必须充分考虑这一点,以确保其在真实环境中发挥作用。 此次研究不仅对AI工程师和人机协调专家有重要启示,也为其他领域提供了借鉴。企业不应仅依赖于标准测试来衡量AI系统的能力,而在部署前应进行充分的用户测试和反馈收集。

Related Links