AnoShift: Ein Verteilungsverschiebungsbenchmark für überwachungsfreie Anomalieerkennung

Die Analyse von Verteilungsverschiebungen in Daten ist eine wachsende Forschungsrichtung im heutigen Maschinellen Lernen (ML) und hat zu neuen Benchmarks geführt, die darauf abzielen, geeignete Szenarien für die Untersuchung der Generalisierungseigenschaften von ML-Modellen bereitzustellen. Die bisherigen Benchmarks konzentrieren sich auf überwachtes Lernen, und soweit uns bekannt ist, existiert kein vergleichbarer Benchmark für unüberwachtes Lernen. Daher stellen wir einen Benchmark für unüberwachtes Anomalieerkennung vor, der Daten mit zeitlich veränderlicher Verteilung verwendet und auf dem Kyoto-2006+-Datensatz basiert, einem Verkehrsdatensatz für die Erkennung von Netzwerkintrusionen. Diese Daten erfüllen die Voraussetzung für eine Verschiebung der Eingangsverteilung: Sie umfassen einen Zeitraum von zehn Jahren mit natürlichen Veränderungen im Laufe der Zeit (beispielsweise durch veränderte Nutzerverhalten oder Software-Updates). Zunächst verdeutlichen wir die nicht-stationäre Natur der Daten mittels einer grundlegenden Merkmalsanalyse, t-SNE sowie einem Optimal Transport-Ansatz zur Messung der Gesamtverteilungsabstände zwischen den Jahren. Anschließend schlagen wir AnoShift vor, ein Protokoll zur Aufteilung der Daten in die Split-Typen IID, NEAR und FAR für die Testphase. Wir validieren die Leistungsminderung im Laufe der Zeit anhand verschiedener Modelle, die von klassischen Ansätzen bis hin zu tiefen Lernverfahren reichen. Schließlich zeigen wir, dass die Berücksichtigung des Problems der Verteilungsverschiebung und deren angemessene Behandlung die Leistung im Vergleich zur klassischen Trainingsstrategie, die unabhängige und identisch verteilte (IID) Daten annimmt, verbessern kann (im Durchschnitt um bis zu 3 % bei unserem Ansatz). Datensatz und Code sind unter https://github.com/bit-ml/AnoShift/ verfügbar.