新研究揭示:特定学习策略能提升医院AI模型的准确性和公平性
新的研究表明,使用特定的学习策略可以提高医院中人工智能模型的有效性和安全性。这项研究由约克大学的研究团队完成,并发表在《JAMA Network Open》上,旨在评估数据偏移对临床人工智能模型的影响,并提出解决方案。 研究团队构建并评估了一个早期预警系统,该系统用来预测住院患者死亡风险,以便更好地分配医院资源。该研究覆盖了多伦多地区七家大型医院的143,049次患者就诊记录,包括实验室结果、输血记录、影像报告和行政特征等数据。这些数据来自GEMINI,这是加拿大最大的医院数据共享网络。 约克大学健康政策与管理学院助理教授Elham Dolatabadi表示:“随着医院越来越多地使用人工智能来预测患者的死亡率、住院时间、败血症和其他疾病诊断,确保这些模型的安全性和准确性变得尤为重要。然而,由于数据随时间变化,模型的可靠性常常受到影响。”数据的多样性和准确性对于训练可靠的临床AI模型至关重要,否则可能导致无关或有害的预测,甚至不准确的诊断。不同医院的患者人群、人员配备、资源以及医疗实践的差异,都会引起潜在的数据偏移。 研究发现,从社区医院患者数据训练出的模型在学术医院的应用中表现不佳,但反过来则效果较好。此外,研究人员还观察到人口统计学、医院类型、入院来源和重要实验室检测等方面的数据存在显著偏移。这些偏移可能发生在政策变化、行为改变或突发疫情等情况中。 为了缓解这些潜在的数据偏移问题,研究团队采用了转移学习和持续学习两种策略。转移学习允许模型将一个领域的知识应用到另一个相关领域,而持续学习则通过持续的数据流更新模型,以应对数据漂移引起的警报。结果显示,针对特定医院类型的模型在使用转移学习后表现优于使用所有可用医院数据训练的模型。数据漂移触发的持续学习有助于防止COVID-19疫情期间的数据偏移,并随着时间推移提高了模型性能。 Dolatabadi强调:“我们展示了如何检测这些数据偏移,评估它们是否对AI模型性能产生负面影响,并提出了缓解策略。这为从理论到实践提供了一条实际路径,弥合了AI在医疗领域的潜力与在现实临床环境中部署和维持的现实之间的差距。” 研究的第一作者、多伦多大学健康网络的AI科学家Vallijah Subasri补充道:“我们的发现表明,一个主动、标签无关的监测管道结合转移和持续学习可以检测并缓解多伦多一般内科患者群体中的有害数据偏移,确保临床AI模型部署的稳健性和公平性。”