Tiefes faire Clustering durch Maximierung und Minimierung der gegenseitigen Information: Theorie, Algorithmus und Metrik

Fair Clustering zielt darauf ab, Daten in verschiedene Cluster zu unterteilen, während sichergestellt wird, dass sensible Attribute (z. B. Geschlecht, Rasse, RNA-Sequenzierungstechnik) die Clusterbildung nicht dominieren. Obwohl in jüngster Zeit eine Vielzahl von Arbeiten veröffentlicht wurde, die erhebliche Erfolge erzielt haben, basieren die meisten dieser Ansätze auf heuristischen Methoden, und es fehlt bislang eine einheitliche Theorie zur algorithmischen Gestaltung. In dieser Arbeit schließen wir diese Lücke, indem wir eine Theorie auf der Grundlage der gegenseitigen Information für tiefes Fair Clustering entwickeln und darauf aufbauend einen neuen Algorithmus, namens FCMI, entwerfen. Kurz gesagt ermöglicht FCMI durch die gleichzeitige Maximierung und Minimierung der gegenseitigen Information die Erreichung vier hocherwünschter Eigenschaften im Kontext tiefen Fair Clustering: kompakte, ausgewogene und faire Cluster sowie informative Merkmale. Neben den Beiträgen zur Theorie und Algorithmusgestaltung leistet diese Arbeit auch einen weiteren Beitrag: die Einführung eines neuartigen Metriken für Fair Clustering, die auf der Informationstheorie basiert. Im Gegensatz zu bestehenden Bewertungsmaßstäben misst unsere Metrik die Qualität der Clusterbildung und die Fairness integriert und nicht getrennt. Um die Wirksamkeit des vorgeschlagenen FCMI-Algorithms zu validieren, führen wir Experimente an sechs Benchmarks durch, darunter ein Single-Cell-RNA-Seq-Atlas, und vergleichen ihn mit elf state-of-the-art-Methoden anhand von fünf Metriken. Der Quellcode ist über \url{https://pengxi.me} zugänglich.