HyperAIHyperAI
vor 10 Tagen

MIX: Ein gemeinsamer Lernrahmen zur Erkennung sowohl gruppiert als auch gestreut verteilter Ausreißer in Daten mit gemischten Typen

{Zhiyue Wu, Yongjun Wang, Yijie Wang, Hongzuo Xu}
Abstract

Gemischttypische Daten sind im Alltag allgegenwärtig, doch stehen nur sehr wenige Ausreißererkennungsmethoden für solche Daten zur Verfügung. Einige bestehende Ansätze verarbeiten gemischttypische Daten durch Merkmalskonvertierung, wobei jedoch ihre Leistung aufgrund von Informationsverlust und durch die Transformation verursachten Rauschen beeinträchtigt wird. Eine andere Gruppe von Ansätzen bewertet die Ausreißerhaftigkeit getrennt für numerische und kategoriale Merkmale. Diese Verfahren berücksichtigen jedoch die Verhaltensweisen von Datenelementen in unterschiedlichen Merkmalsräumen oft unzureichend und führen häufig zu suboptimalen Ergebnissen. Was die Ausreißerform betrifft, so enthalten viele reale Datensätze sowohl gruppierte als auch verstreute Ausreißer, während zahlreiche Ausreißererkennungsalgorithmen aufgrund ihrer inhärenten Ausreißerdefinitionen darauf beschränkt sind, beide Arten gleichzeitig zu detektieren. Um diese Probleme anzugehen, wird ein unüberwachter Ausreißererkennungsansatz namens MIX vorgestellt. MIX konstruiert einen gemeinsamen Lernrahmen, um eine Kooperationsmechanik zu etablieren, die eine ständige Kommunikation zwischen den getrennten Ausreißerbewertungen ermöglicht und sicherstellt, dass die Verhaltensmuster der Datenelemente im jeweils anderen Merkmalsraum ausreichend erfasst werden. Insbesondere führt MIX iterativ Ausreißerbewertungen im numerischen und kategorischen Raum durch. Jeder Bewertungsprozess wird iterativ und kooperativ durch Vorwissen aus dem anderen Merkmalsraum verbessert. Um sowohl gruppierte als auch verstreute Ausreißer zu erfassen, erfassen die Ausreißerbewertungsphasen die wesentliche Eigenschaft von Ausreißern, nämlich die Beurteilung der Ausreißerhaftigkeit anhand der Abweichung vom Normalmodell. Wir zeigen, dass MIX acht state-of-the-art Ausreißererkennungsalgorithmen auf zwölf realen Datensätzen erheblich übertrifft und dabei eine gute Skalierbarkeit erreicht.