So einfach wie APC: Überwindung von fehlenden Daten und Klassenungleichgewicht in Zeitreihen mit selbstüberwachtem Lernen

Hohe Anteile an fehlenden Daten und starke Klassenausgeglichenheitsprobleme sind weit verbreitete Herausforderungen, die in realen Zeitreihendaten oft gleichzeitig auftreten. Bisherige Ansätze behandeln diese Probleme getrennt und treffen häufig starke Annahmen über den zugrundeliegenden Datengenerierungsprozess, um die Auswirkungen fehlender Informationen zu verringern. In dieser Arbeit zeigen wir stattdessen, wie ein allgemeiner selbstüberwachter Trainingsansatz – nämlich die autoregressive prädiktive Kodierung (Autoregressive Predictive Coding, APC) – genutzt werden kann, um sowohl fehlende Daten als auch Klassenausgeglichenheitsprobleme gleichzeitig zu bewältigen, ohne starke Annahmen zu erfordern. Konkret zeigen wir an einem synthetischen Datensatz, dass durch die Anwendung von APC standardmäßige Baselines erheblich verbessert werden, wobei die größten Leistungssteigerungen im kombinierten Szenario mit hoher Datenlückenhaftigkeit und starker Klassenausgeglichenheitsproblematik erzielt werden. Darüber hinaus wenden wir APC auf zwei reale medizinische Zeitreihendatensätze an und belegen, dass APC die Klassifikationsleistung in allen betrachteten Szenarien verbessert und schließlich auf dem PhysioNet-Benchmark Ergebnisse auf State-of-the-Art-Niveau hinsichtlich der AUPRC erreicht.