HyperAIHyperAI
vor 11 Tagen

Unüberwachte Anomalieerkennung für Auditing-Daten und Einfluss kategorischer Codierungen

Ajay Chawda, Stefanie Grimm, Marius Kloft
Unüberwachte Anomalieerkennung für Auditing-Daten und Einfluss kategorischer Codierungen
Abstract

In diesem Paper stellen wir den Vehicle Claims-Datensatz vor, der aus betrügerischen Versicherungsansprüchen für Autoreparaturen besteht. Die Daten gehören zur breiteren Kategorie der Auditing-Daten, zu der auch Journal- und Netzwerk-Intrusion-Daten zählen. Versicherungsanspruchsdaten unterscheiden sich deutlich von anderen Auditing-Daten (wie Netzwerk-Intrusionsdaten) durch ihre hohe Anzahl an kategorialen Attributen. Wir adressieren das verbreitete Problem fehlender Benchmark-Datensätze für die Anomalieerkennung: Die Datensätze sind meist vertraulich, und die öffentlich verfügbaren tabellarischen Datensätze enthalten nicht ausreichend relevante und umfassende kategoriale Attribute. Daher wurde ein großskaliger Datensatz für diesen Zweck erstellt und als Vehicle Claims (VC)-Datensatz bezeichnet. Der Datensatz wird auf shallow- und deep-learning-Methoden evaluiert. Aufgrund der Einführung kategorialer Attribute begegnen wir der Herausforderung ihrer Kodierung im Kontext eines großen Datensatzes. Da die One-Hot-Kodierung bei hochkardinalen Datensätzen das „Fluch der Dimensionen“ verursacht, testen wir alternative Ansätze wie GEL-Kodierung und Embedding-Layer zur Darstellung kategorialer Attribute. Unser Ansatz vergleicht verschiedene Methoden der Anomalieerkennung – inklusive competitiver Lernverfahren, Rekonstruktionsfehler-basierter Ansätze, Dichteschätzung und kontrastives Lernen – unter Verwendung unterschiedlicher Kodierungsstrategien: Label, One-Hot, GEL-Kodierung und Embedding-Layer, um kategoriale Werte effektiv zu verarbeiten.

Unüberwachte Anomalieerkennung für Auditing-Daten und Einfluss kategorischer Codierungen | Neueste Forschungsarbeiten | HyperAI