如何教学生识别AI数据集中的偏见:麻省理工学院专家提出关键步骤
Leo Anthony Celi 是麻省理工学院(MIT)医学工程与科学研究所的高级研究员,同时也是贝斯以色列女执事医疗中心的医生和哈佛医学院的副教授。他在最近发表的一篇论文中指出,许多AI课程忽视了训练数据中潜在偏差的教学,导致学生在构建模型时可能会忽略数据中的问题。Celi 强调,这些问题可能会严重削弱模型对不同人群的适用性。 过去的研究已经表明,主要基于白人男性临床数据训练的模型在应用于其他人群时效果欠佳。例如,脉搏血氧仪在用于有色人种时高估了他们的氧饱和度水平,这主要是因为在设备临床试验中缺乏足够的有色人种样本。类似地,电子健康记录系统并不是为了学习而设计的,因此在使用这些记录来构建AI模型时需要格外小心。目前,MIT 的Critical Data联盟正在全球范围内组织“数据马拉松”活动,通过医生、护士、其他卫生工作者和数据科学家的合作,来审查数据库并探究当地健康和疾病情况。 Celi 认为,教育者应该在课程中加入更多关于数据偏见的内容。他在分析了11门在线课程后发现,只有5门课程包含了数据集偏见的部分内容,而仅有2门课程对此进行了详细的讨论。因此,课程开发者需要在教学内容中加入一系列关键问题,如数据来自何处、谁收集的数据以及该机构的具体情况等。此外,理解数据来源的多样性对于减少模型的偏差至关重要。他建议,在真正开始构建模型之前,至少应有一半的课程内容用于理解数据。 为了解决这个问题,Celi 提出了一种基于Transformer模型的方法来处理数值型电子健康记录数据。这种方法可以建模实验室测试结果、生命体征和治疗之间的关系,从而减轻因社会健康因素和提供者的隐性偏见导致的数据缺失问题。他还强调,课程应该培养学生的批判性思维能力,这需要将来自不同背景和不同年龄段的人聚集在一起,共同审查数据集。通过这种方式,不仅能够提高学生的参与度,还能帮助他们更好地理解和解决数据中的潜在问题。 业内人士认为,Celi 的研究揭示了当前AI教育中的一个巨大缺口。许多在线课程仅关注模型的构建和技术细节,而忽视了数据质量和偏见的重要性。MIT 的Critical Data 联盟已经在全球范围内推动了一系列活动,旨在提高人们对这些关键问题的认识。这些努力不仅有助于学生们在未来的工作中更加谨慎地处理数据,还可能促使整个行业更加重视数据的多样性和质量,从而推动更公平的AI模型开发。 MIT 和哈佛医学院在AI和医疗领域的研究合作历史悠久,Celi 的工作进一步巩固了这两个机构在医疗AI教育领域的领导地位。他的研究表明,通过改进课程内容,可以有效地帮助学生识别和应对数据集中的偏见,从而为未来的医疗AI应用打下更为坚实的基础。