Eine probabilistische Transformation von abstandsbasierenden Ausreißern

Die Scores von distanzbasierten Ausreißererkennungsmethoden sind schwer interpretierbar, was die Bestimmung einer Schwellenwertgrenze zwischen normalen und Ausreißerdatenpunkten ohne zusätzlichen Kontext erschwert. Wir beschreiben eine generische Transformation von distanzbasierten Ausreißerscores in interpretierbare, probabilistische Schätzungen. Die Transformation ist rangstabil und erhöht den Kontrast zwischen normalen und Ausreißerdatenpunkten. Die Bestimmung der Distanzbeziehungen zwischen Datenpunkten ist notwendig, um die Nachbarschaftsbeziehungen in den Daten zu identifizieren, wobei jedoch die meisten berechneten Distanzen typischerweise verworfen werden. Wir zeigen, dass die Distanzen zu anderen Datenpunkten genutzt werden können, um Distanz-Wahrscheinlichkeitsverteilungen zu modellieren, und diese Verteilungen anschließend dazu dienen, distanzbasierte Ausreißerscores in Ausreißer-Wahrscheinlichkeiten zu transformieren. Unsere Experimente zeigen, dass die probabilistische Transformation die Erkennungsleistung über zahlreiche tabellarische und bilddatenbasierte Benchmark-Datensätze hinweg nicht beeinträchtigt, jedoch zu interpretierbaren Ausreißerscores mit erhöhtem Kontrast zwischen normalen und Ausreißerproben führt. Unser Ansatz verallgemeinert sich auf eine breite Palette von distanzbasierten Ausreißererkennungsmethoden und erzeugt aufgrund der Nutzung bereits vorhandener Distanzberechnungen keine signifikante zusätzliche Rechenlast.