HyperAI

当人工智能在医学诊断中表现超越人类专家时，是否意味着人机协作必然带来更优结果？芝加哥大学的一项研究给出了出人意料的答案。该研究聚焦于前列腺癌磁共振成像（MRI）诊断这一高难度临床任务，探索AI辅助下的真实协作效果。研究团队由陈诧姹博士领衔，基于1411例病例的PI-CAI公开数据集，训练了基于nnU-Net架构的AI模型。在测试中，其诊断准确率（AUROC）达到0.730至0.790，显著优于8名来自美欧的资深放射科医生的平均水平。这些医生平均年龄在29至52岁之间，均具备丰富经验，但面对前列腺MRI的复杂性，诊断准确率仅为63.2%。研究设计了两阶段实验：第一阶段，医生先独立诊断75个病例，再参考AI建议后做出最终判断；30天后进入第二阶段，医生在获得个人表现反馈并直接看到AI预测的前提下，诊断100个新病例。结果显示，尽管AI辅助使医生准确率提升至66.2%，但仍未超过AI自身69.3%的独立表现。关键瓶颈在于信任与判断的失衡。当医生与AI出现分歧时，平均22.6个病例中仅4.6个被调整，采纳率仅20.4%。更值得注意的是，在这些分歧病例中，医生自身准确率仅为44.4%，远低于整体水平，说明他们在最需要AI帮助时反而更坚持己见。第二阶段虽提高AI采纳率至78.4%，但诊断性能未见显著改善，表明单纯提供数据反馈不足以改变决策习惯。研究转而探索群体协作潜力。通过“多数票决”方式整合8位医生在AI辅助下的诊断结果，形成集体决策。结果令人振奋：群体平均准确率达73.3%，不仅大幅优于人类独立表现，更首次超越AI模型本身，实现“人机互补”的理想状态。这一发现揭示：个体医生难以有效驾驭AI，但通过集体智慧，人类经验与AI分析能力可实现协同增效。未来AI临床应用不应仅聚焦于打造“超级工具”，而应构建深度协作的团队模式。陈诧姹强调，提升效果的关键在于增强医生对AI能力边界的理解——明确AI在哪些病例中表现优异，在哪些场景下可能出错。通过透明化模型逻辑与提供精准反馈，才能建立合理信任，推动真正有效的协作。该成果以《领域专家能否恰当地依赖AI？一项关于AI辅助前列腺癌MRI诊断的案例研究》为题，发表于ACM Conference on Fairness, Accountability, and Transparency。研究为AI在医疗决策中的合理部署提供了重要实证依据，也为人机协同的未来路径指明了方向。

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

AI 诊断前列腺癌准确率超医生20%，但人机协作并非简单叠加——芝大研究揭示协同瓶颈与群体智慧突破

الروابط ذات الصلة

Command Palette

AI 诊断前列腺癌准确率超医生20%，但人机协作并非简单叠加——芝大研究揭示协同瓶颈与群体智慧突破

الروابط ذات الصلة

Command Palette

AI 诊断前列腺癌准确率超医生20%，但人机协作并非简单叠加——芝大研究揭示协同瓶颈与群体智慧突破

الروابط ذات الصلة