
摘要
预训练在机器学习的不同领域,如计算机视觉(CV)、自然语言处理(NLP)和医学影像中已经取得了成功。然而,它在临床数据分析中的应用尚未得到充分探索。尽管大量的电子健康记录(EHR)数据被记录下来,但如果数据是在小型医院收集的或涉及罕见疾病,数据和标签可能会非常稀缺。在这种情况下,基于更大规模的EHR数据进行预训练可以提高模型性能。本文中,我们将无监督预训练应用于异构、多模态的EHR数据,以预测患者结局。为了建模这些数据,我们利用了图深度学习方法对人群图进行分析。首先,我们设计了一种基于图变换器的网络架构,该架构能够处理EHR数据中出现的各种输入特征类型,如连续型、离散型和时间序列特征,从而实现更好的多模态数据融合。此外,我们设计了基于掩码插补的预训练方法,在微调不同最终任务之前对网络进行预训练。预训练完全以无监督方式进行,为未来在大规模公共数据集上进行类似模态和不同任务的预训练奠定了基础。我们在两个包含影像学和非影像学特征以及不同预测任务的医疗患者记录数据集TADPOLE和MIMIC-III上测试了我们的方法。结果表明,我们提出的基于图的预训练方法有助于在人群层面建模数据,并且在微调任务中平均提高了MIMIC-III数据集上的AUC值4.15%,TADPOLE数据集上的AUC值7.64%。