Ensemble-Clustering auf der Grundlage von aus der Co-Assoziationsmatrix extrahierten Beweisen
Das Evidence-Akkumulations-Modell ist ein Ansatz zur Sammlung von Informationen über Basisteilungen in einem Clustering-Ensemble-Verfahren und kann als eine Kerne Transformation vom ursprünglichen Datenumfeld in eine Co-Assoziationsmatrix betrachtet werden. Bei dieser Transformation kann jedoch teilweise strukturelle Clustering-Information verloren gehen; daher schlagen einige in der Literatur vorgestellte Methoden vor, die verloren gegangenen Informationen wiederherzustellen und in den Ensemble-Prozess zurückzuführen. In diesem Artikel wird ein interessanter Befund vorgestellt: Wenn bestimmte Evidenzen aus der Co-Assoziationsmatrix entfernt werden, können dadurch genauere Clustering-Ergebnisse erzielt werden. Die intuitive Erklärung hierfür ist, dass einige Evidenzen in der ursprünglichen Co-Assoziationsmatrix Rauschen darstellen und negativen Einfluss auf das endgültige Clustering haben können. Praktisch ist es jedoch schwierig, solche Evidenzen zu erkennen, geschweige denn aus der Matrix zu entfernen. Um dieses Problem zu lösen, entfernen wir mehrstufige Evidenzen, die eine geringe Auftretenshäufigkeit aufweisen, da negative Evidenzen in den Basisteilungen normalerweise nicht regelmäßig auftreten. Anschließend nutzen wir die Normalized-Cut-Methode, um mehrere Clustering-Ergebnisse zu erzielen. Zur Identifizierung des optimalen Ensemble-Ergebnisses wurde ein interner Güteindex speziell für das Clustering-Ensemble entwickelt, der ausschließlich auf der Co-Assoziationsmatrix basiert. Experimentelle Ergebnisse an 16 Datensätzen zeigen, dass das vorgeschlagene Verfahren einige der aktuell besten Ansätze im Bereich des Clustering-Ensembles übertrifft.