
摘要
电子健康记录(EHR)数据的获取推动了医学研究中的计算技术进步。然而,由于隐私等方面的诸多顾虑,EHR数据的访问与协作使用受到限制。共享合成的EHR数据可在一定程度上降低风险。本文提出一种新方法——医学生成对抗网络(medGAN),用于生成具有真实感的合成患者记录。基于输入的真实患者记录,medGAN通过结合自编码器与生成对抗网络,能够生成高维离散变量(如二值特征和计数特征)。我们还引入小批量平均(minibatch averaging)策略,有效避免模式崩溃(mode collapse),并结合批量归一化(batch normalization)与捷径连接(shortcut connections)提升学习效率。为验证方法的可行性,我们在多项实验中展示了medGAN生成的合成患者记录在分布统计、预测建模任务以及医学专家评审中均达到与真实数据相当的性能表现。此外,实证分析表明,使用medGAN生成的数据在身份泄露与属性泄露方面的隐私风险有限。