Lernen von Darstellungen aus medizinischen Zeitreihendaten zur unüberwachten Anomalieerkennung
Die Menge an Zeitreihendaten, die im Gesundheitswesen generiert wird, wächst sehr schnell, und ebenso schnell steigt die Notwendigkeit nach Methoden, die diese Daten analysieren, Anomalien erkennen und aussagekräftige Erkenntnisse liefern können. Allerdings ist der Großteil der verfügbaren Daten unbeschriftet, weshalb die Anomalieerkennung in diesem Kontext für Forscher und Praktiker eine erhebliche Herausforderung darstellt. Kürzlich wurde unüberwachtes Darstellungslernen mit tiefen generativen Modellen eingesetzt, um Datenrepräsentationen zu finden, ohne auf große beschriftete Datensätze angewiesen zu sein. Inspiriert durch deren Erfolg, schlagen wir einen vollständig unüberwachten Rahmen für die Anomalieerkennung in Zeitreihendaten vor. In unserem Ansatz sind sowohl das Lernen von Darstellungen als auch die Anomalieerkennung vollständig unüberwacht. Zudem kann der Trainingsdatensatz auch anormale Beobachtungen enthalten. Zunächst lernen wir Zeitreihenrepräsentationen mithilfe eines Variational Recurrent Autoencoders. Anschließend nutzen wir diese Darstellungen, um anormale Zeitreihen mittels Clustering und der Wasserstein-Distanz zu detektieren. Unsere Ergebnisse auf dem öffentlich verfügbaren ECG5000-Elektrokardiogramm-Datensatz zeigen, dass der vorgeschlagene Ansatz in vollständig unüberwachter Weise Anomalien in Herzschlagverläufen erkennen kann, während gleichzeitig strukturierte und ausdrucksstarke Datenrepräsentationen bereitgestellt werden. Zudem übertrifft unser Ansatz sowohl vorherige überwachte als auch unüberwachte Methoden auf diesem Datensatz.