
摘要
缺失数据是一个普遍存在的问题。在医疗环境中,这一问题尤为棘手,因为许多测量数据流是在不同且常常不规则的时间点收集的。准确估计这些缺失的测量值对于诊断、预后和治疗等多个方面至关重要。现有的方法通过在数据流内部进行插值或跨数据流进行填补(这两种方法都忽略了重要的信息)来解决这一估计问题,或者忽视了数据的时间特性并强加了关于数据生成过程和/或缺失数据模式的强大假设(这两种方法对医疗数据尤其成问题)。我们提出了一种新的方法,基于一种新颖的深度学习架构,即多方向循环神经网络(Multi-directional Recurrent Neural Network, M-RNN),该网络能够在数据流内部进行插值并在不同数据流之间进行填补。我们通过将其应用于五个真实世界的医疗数据集来展示这种方法的强大能力。结果显示,与11种最先进的基准方法(包括样条插值、三次插值、多重插补链式方程(MICE)、MissForest、矩阵补全及几种RNN方法)相比,我们的方法在估计缺失测量值方面有显著改进;均方根误差通常可降低35%至50%。基于同一五个数据集的额外实验进一步证明了我们方法提供的改进具有极高的鲁棒性。