
摘要
在现实世界中,已部署了大量传感器,持续生成海量的地理标记时间序列数据。然而,由于传感器故障或通信异常,传感器读数常常在不同时间点出现丢失。这些缺失的读数不仅影响实时监测的准确性,还会严重削弱后续数据分析的性能。本文提出一种基于时空多视角学习(Spatio-Temporal Multi-View Learning, ST-MVL)的方法,用于协同填补地理传感时间序列数据集合中的缺失值。该方法同时考虑了两个关键因素:1)同一时间序列中不同时间戳读数之间的时序相关性;2)不同时间序列之间的空间相关性。本方法融合了基于经验统计的模型与数据驱动的算法。其中,经验统计模型包括反距离加权法(Inverse Distance Weighting)和简单指数平滑法(Simple Exponential Smoothing),分别基于长期历史数据的经验假设,从时空两个全局视角建模,捕捉整体趋势。而数据驱动的算法则包括基于用户的协同过滤(User-based Collaborative Filtering)和基于项目的协同过滤(Item-based Collaborative Filtering),能够针对经验假设不成立的特殊情形,依据数据的近期上下文信息,从时空两个局部视角进行建模。最终,四种视角(两个全局、两个局部)的预测结果通过多视角学习机制进行融合,生成最终的填补值。我们在北京市空气质量与气象数据集上对所提方法进行了评估,结果表明,相较于十种基准方法,本模型在填补精度和鲁棒性方面均展现出显著优势。