Deep Isolation Forest zur Anomalieerkennung

Isolation Forest (iForest) ist in den letzten Jahren als vermutlich am weitesten verbreiteter Anomalieerkennungsalgorithmus hervorgetreten, bedingt durch seine allgemeine Wirksamkeit über verschiedene Benchmark-Daten und seine starke Skalierbarkeit. Dennoch führt seine lineare, achsenparallele Isolierungsmethode häufig zu (i) einem Versagen bei der Erkennung schwer isolierbarer Anomalien in hochdimensionalen oder nicht-linear trennbaren Datensräumen sowie zu (ii) einer bekannten algorithmischen Verzerrung, die unerwartet niedrige Anomalie-Scores für Artefaktregionen zuweist. Diese Probleme tragen zu hohen Falsch-negativ-Fehlerraten bei. Mehrere Erweiterungen von iForest wurden vorgeschlagen, doch sie basieren im Wesentlichen weiterhin auf flachen, linearen Datensplitting-Verfahren, was ihre Fähigkeit zur Isolierung echter Anomalien einschränkt. Daher schlagen wir im vorliegenden Artikel den Deep Isolation Forest vor. Wir führen ein neues Darstellungsschema ein, das zufällig initialisierte neuronale Netze nutzt, um die ursprünglichen Daten in zufällige Darstellungsentitäten abzubilden, in denen anschließend zufällige, achsenparallele Schnitte zur Datensplitting durchgeführt werden. Dieses Darstellungsschema ermöglicht eine hohe Freiheit der Partition im ursprünglichen Datenspace (äquivalent zu nicht-linearen Partitionen auf Teilräumen unterschiedlicher Größe) und fördert eine einzigartige Synergie zwischen zufälligen Darstellungen und zufallsbasiertem Partitionierungsansatz zur Isolierung. Umfangreiche Experimente zeigen, dass unser Modell gegenüber aktuellen Isolierungs-basierten Methoden sowie tiefen Detektoren erhebliche Verbesserungen auf Tabellen-, Graph- und Zeitreihendaten erzielt; zudem übernimmt unser Modell die gewünschte Skalierbarkeit von iForest.