11 天前
如同APC般简单:利用自监督学习克服时间序列中的缺失数据与类别不平衡问题
Fiorella Wever, T. Anderson Keller, Laura Symul, Victor Garcia

摘要
高缺失率与严重的类别不平衡是现实世界时间序列数据中普遍存在且常同时出现的挑战。现有方法通常将这两个问题分别处理,且常需对底层数据生成过程做出较强假设,以缓解缺失信息带来的影响。本文提出,通过一种通用的自监督训练方法——自回归预测编码(Autoregressive Predictive Coding, APC),可在无需强假设的前提下,同时有效应对缺失数据与类别不平衡问题。具体而言,在合成数据集上,我们证明了标准基线方法在引入APC后得到显著提升,尤其在高缺失率与严重类别不平衡的联合场景下,性能增益最为明显。进一步地,我们将APC应用于两个真实世界的医疗时间序列数据集,实验结果表明,APC在所有设置下均提升了分类性能,并最终在PhysioNet基准测试中取得了当前最优的AUPRC(曲线下面积-精确率-召回率)结果。