ST-MVL: Behebung fehlender Werte in geosensorischen Zeitreihendaten

Viele Sensoren sind in der physischen Welt eingesetzt worden und generieren massive, geotaggte Zeitreihendaten. In der Praxis gehen Sensordaten häufig zu unvorhergesehenen Zeitpunkten verloren, was auf Sensor- oder Kommunikationsfehler zurückzuführen ist. Solche fehlenden Messwerte beeinträchtigen nicht nur die Echtzeitüberwachung, sondern verschlechtern auch die Leistungsfähigkeit nachfolgender Datenanalysen. In diesem Paper stellen wir eine spatio-temporale, mehransichtsbasierte Lernmethode (ST-MVL) vor, um fehlende Messwerte in einer Sammlung geosensorischer Zeitreihen gemeinsam zu ergänzen, wobei wir zwei Aspekte berücksichtigen: 1) die zeitliche Korrelation zwischen Messwerten derselben Zeitreihe zu verschiedenen Zeitpunkten und 2) die räumliche Korrelation zwischen verschiedenen Zeitreihen. Unsere Methode kombiniert empirische statistische Modelle – bestehend aus der inversen Distanzgewichtung (Inverse Distance Weighting, IDW) und der einfachen exponentiellen Glättung (Simple Exponential Smoothing, SES) – mit datengetriebenen Algorithmen, die aus benutzerbasiertem und objektbasiertem Collaborative Filtering bestehen. Die ersten Modelle behandeln allgemeine Fälle fehlender Daten auf Basis empirischer Annahmen, die aus langfristigen historischen Daten abgeleitet wurden, und repräsentieren zwei globale Perspektiven – räumlich und zeitlich. Die letzteren Algorithmen hingegen adressieren spezielle Fälle, in denen empirische Annahmen möglicherweise nicht zutreffen, und basieren auf den jüngsten Datenkontexten, wodurch zwei lokale Perspektiven – räumlich und zeitlich – entstehen. Die Vorhersagen der vier Ansichten werden in einem mehransichtsbasierten Lernalgorithmus zu einem finalen Wert aggregiert. Wir evaluieren unsere Methode anhand von Luftqualitäts- und meteorologischen Daten aus Peking und zeigen, dass unser Modell gegenüber zehn Baseline-Ansätzen deutliche Vorteile aufweist.