Back to Headlines

如何避免AI医疗模型中的偏见:关键课程缺失的重要一课

5 个月前

近年来,越来越多的学生参加人工智能课程,学习如何利用AI模型帮助医生诊断疾病并确定合适的治疗方案。然而,这些课程往往忽视了一个关键问题:教会学生如何检测训练数据中存在的偏见。MIT的医学工程与科学研究所高级研究员、Beth Israel Deaconness医疗中心医生、哈佛医学院副教授Leo Anthony Celi在最新发表的论文中探讨了这一问题,并呼吁课程开发者加强这方面的培训。 Celi指出,数据偏见的问题普遍存在,尤其是在医疗AI领域。许多研究表明,主要基于白人男性的临床数据训练的模型,在其他群体中的表现往往不佳。这种偏见的原因多种多样,包括临床试验中参与者的多样性不足、医疗设备测试时使用的样本不够广泛等。例如,脉搏血氧仪对于有色人种的氧饱和度测量结果常常过高,因为临床试验中缺少足够的有色人种参与者。此外,电子健康记录系统并非为了训练AI模型而设计,因此使用这些数据时必须格外谨慎。 在教学实践中,Celi发现当前许多AI课程过分强调如何构建模型,而忽略了数据本身的质量和来源。他和团队分析了11门在线课程,只有5门课程涵盖了数据集中的偏见问题,仅有2门进行了深入讨论。这种偏重模型构建的教学方法可能会导致学生忽视数据质量问题,进而开发出存在严重偏差的模型。 为了解决这个问题,Celi建议课程开发者应加强对数据理解的培训,甚至将其作为课程的核心内容。这包括引导学生思考数据的来源、收集者是谁、医院的人口结构如何以及哪些患者能够进入重症监护室等问题。通过这些问题,学生可以更好地识别数据偏见和抽样选择偏见。此外,Celi还提到一种有前途的方法——使用变压器模型处理数值型电子健康记录数据,包括实验室检查结果、生命体征和治疗记录等,这种方法可以帮助减轻由于社会因素和医生隐性偏见导致的数据缺失问题。 从2014年开始,MIT Critical Data联盟开始在全球组织数据马拉松活动(类似于数据“黑客马拉松”)。这些活动汇聚了医生、护士、其他医疗工作者和数据科学家,共同审查数据库,以了解当地健康状况和疾病情况。Celi强调,跨学科交流是培养批判性思维的关键。不同背景和代际的人聚在一起时,自然会产生批判性思考的氛围。活动的目的不仅是发现数据问题,还要鼓励参与者寻找本地数据集,以确保数据的相关性和实用性。即使数据质量不理想,这也是发现问题并逐步改进的机会。 Celi希望通过这篇论文引起教育界对数据偏见问题的关注,推动课程改革,确保学生具备处理数据偏见的能力。他表示,虽然我们可能无法回答所有问题,但能激发学生的意识,认识到数据中存在的诸多问题,这是迈向正确的第一步。 业内人士认为,Celi的研究揭示了一个重要而紧迫的问题。随着AI技术的普及,未来的医疗工作者需要更加全面地理解和评估数据,以避免模型的偏见造成的潜在危害。MIT在这一领域的研究和实践已经取得了一定成果,但仍需继续努力,提高数据集的多样性和准确性,确保AI技术真正惠及所有人。

Related Links