ST-MVL : Complétion des valeurs manquantes dans les séries temporelles géo-sensorielles

De nombreux capteurs ont été déployés dans le monde physique, générant d’importants volumes de données temporelles géolocalisées. En réalité, les mesures des capteurs sont souvent perdues à des moments imprévus en raison d’anomalies matérielles ou de perturbations dans les communications. Ces données manquantes n’affectent pas seulement le suivi en temps réel, mais compromettent également les performances des analyses ultérieures des données. Dans cet article, nous proposons une méthode d’apprentissage multi-vues spatio-temporelles (ST-MVL) visant à combler collectivement les données manquantes dans un ensemble de séries temporelles géosensorielles, en tenant compte à la fois : 1) de la corrélation temporelle entre les mesures à différents instants au sein d’une même série, et 2) de la corrélation spatiale entre différentes séries temporelles. Notre méthode combine des modèles statistiques empiriques — composés de l’interpolation par poids inverse de distance (Inverse Distance Weighting) et de l’ajustement exponentiel simple (Simple Exponential Smoothing) — avec des algorithmes d’apprentissage automatique fondés sur les données, notamment le filtrage collaboratif basé sur l’utilisateur (User-based Collaborative Filtering) et le filtrage collaboratif basé sur les objets (Item-based Collaborative Filtering). Les premiers modèles traitent les cas de perte généralisés en s’appuyant sur des hypothèses empiriques tirées d’historiques étendus dans le temps, représentant deux perspectives globales respectivement spatiale et temporelle. Les algorithmes ultérieurs s’adressent aux cas particuliers où ces hypothèses empiriques ne sont plus valables, en se fondant sur les contextes récents des données, incarnant ainsi deux perspectives locales, spatiale et temporelle. Les prédictions issues des quatre perspectives sont combinées via un algorithme d’apprentissage multi-vues afin d’obtenir une estimation finale. Nous évaluons notre méthode à l’aide de données sur la qualité de l’air et météorologiques à Pékin, et montrons que notre modèle présente des avantages significatifs par rapport à dix approches de référence.