Unüberwachte Echtzeit-Anomalieerkennung für Stream-Daten
Wir beobachten eine erhebliche Zunahme der Verfügbarkeit von Streaming- und Zeitreihendaten. Hauptverantwortlich hierfür ist die zunehmende Verbreitung von vernetzten Echtzeit-Datenquellen, die sowohl technische Herausforderungen als auch neue Möglichkeiten mit sich bringen. Eine grundlegende Fähigkeit für Streaming-Analysen besteht darin, jeden Datenstrom auf unsupervisierter Basis zu modellieren und ungewöhnliches, anomales Verhalten in Echtzeit zu erkennen. Die frühzeitige Erkennung von Anomalien ist von großem Wert, kann jedoch in der Praxis oft schwer zuverlässig umzusetzen sein. Anwendungsbeschränkungen erfordern, dass Systeme Daten in Echtzeit, nicht in Batch-Verarbeitung, verarbeiten. Streaming-Daten weisen inhärentes Konzept-Drift auf, was Algorithmen bevorzugt, die kontinuierlich lernen. Darüber hinaus erfordert die enorme Anzahl unabhängiger Datenströme in der Praxis eine vollständig automatisierte Anomalieerkennung. In diesem Paper stellen wir einen neuartigen Anomalieerkennungsalgorithmus vor, der diesen Anforderungen gerecht wird. Die Methode basiert auf einem Online-Sequenzgedächtnis-Algorithmus namens Hierarchical Temporal Memory (HTM). Zudem präsentieren wir Ergebnisse, die mit dem Numenta Anomaly Benchmark (NAB) erzielt wurden, einem Benchmark, der reale Datenströme mit markierten Anomalien enthält. Dieser Benchmark, der erste seiner Art, bietet eine kontrollierte, Open-Source-Umgebung zur Testung von Anomalieerkennungsalgorithmen auf Streaming-Daten. Wir zeigen Ergebnisse und Analysen für eine breite Palette von Algorithmen auf diesem Benchmark und diskutieren zukünftige Herausforderungen für das sich entwickelnde Feld der Streaming-Analytik.