AI 诊断前列腺癌准确率超医生20%,但人机协作并非简单叠加——芝大研究揭示协同瓶颈与群体智慧突破
当人工智能在医学诊断中表现超越人类专家时,是否意味着人机协作必然带来更优结果?芝加哥大学的一项研究给出了出人意料的答案。该研究聚焦于前列腺癌磁共振成像(MRI)诊断这一高难度临床任务,探索AI辅助下的真实协作效果。 研究团队由陈诧姹博士领衔,基于1411例病例的PI-CAI公开数据集,训练了基于nnU-Net架构的AI模型。在测试中,其诊断准确率(AUROC)达到0.730至0.790,显著优于8名来自美欧的资深放射科医生的平均水平。这些医生平均年龄在29至52岁之间,均具备丰富经验,但面对前列腺MRI的复杂性,诊断准确率仅为63.2%。 研究设计了两阶段实验:第一阶段,医生先独立诊断75个病例,再参考AI建议后做出最终判断;30天后进入第二阶段,医生在获得个人表现反馈并直接看到AI预测的前提下,诊断100个新病例。结果显示,尽管AI辅助使医生准确率提升至66.2%,但仍未超过AI自身69.3%的独立表现。 关键瓶颈在于信任与判断的失衡。当医生与AI出现分歧时,平均22.6个病例中仅4.6个被调整,采纳率仅20.4%。更值得注意的是,在这些分歧病例中,医生自身准确率仅为44.4%,远低于整体水平,说明他们在最需要AI帮助时反而更坚持己见。 第二阶段虽提高AI采纳率至78.4%,但诊断性能未见显著改善,表明单纯提供数据反馈不足以改变决策习惯。 研究转而探索群体协作潜力。通过“多数票决”方式整合8位医生在AI辅助下的诊断结果,形成集体决策。结果令人振奋:群体平均准确率达73.3%,不仅大幅优于人类独立表现,更首次超越AI模型本身,实现“人机互补”的理想状态。 这一发现揭示:个体医生难以有效驾驭AI,但通过集体智慧,人类经验与AI分析能力可实现协同增效。未来AI临床应用不应仅聚焦于打造“超级工具”,而应构建深度协作的团队模式。 陈诧姹强调,提升效果的关键在于增强医生对AI能力边界的理解——明确AI在哪些病例中表现优异,在哪些场景下可能出错。通过透明化模型逻辑与提供精准反馈,才能建立合理信任,推动真正有效的协作。 该成果以《领域专家能否恰当地依赖AI?一项关于AI辅助前列腺癌MRI诊断的案例研究》为题,发表于ACM Conference on Fairness, Accountability, and Transparency。研究为AI在医疗决策中的合理部署提供了重要实证依据,也为人机协同的未来路径指明了方向。
