Clustering équitable profond en maximisant et minimisant l'information mutuelle : théorie, algorithme et métrique

Le regroupement équitable vise à partitionner les données en clusters distincts tout en empêchant que des attributs sensibles (par exemple, sexe, race, technique de séquençage d'ARN) dominent le processus de regroupement. Bien qu’un certain nombre d’études aient été menées récemment et aient obtenu des succès notables, la plupart de ces approches sont heuristiques, et il manque une théorie unifiée pour guider la conception d’algorithmes. Dans ce travail, nous comblons cette lacune en développant une théorie de l’information mutuelle pour le regroupement équitable profond, et en proposant en conséquence un nouvel algorithme, nommé FCMI. En résumé, en maximisant et en minimisant l’information mutuelle, FCMI est conçu pour atteindre quatre caractéristiques essentielles attendues dans le regroupement équitable profond : des clusters compacts, équilibrés et équitables, ainsi que des caractéristiques informatives. Outre les contributions théoriques et algorithmiques, une autre contribution de ce travail réside dans la proposition d’un nouveau métrique de regroupement équitable fondé sur la théorie de l’information. Contrairement aux métriques d’évaluation existantes, notre métrique évalue de manière intégrée la qualité du regroupement et l’équité, plutôt que de manière séparée. Pour valider l’efficacité de l’algorithme proposé FCMI, nous menons des expériences sur six benchmarks, y compris une carte de séquençage à l’échelle d’une cellule unique (single-cell RNA-seq), en comparant avec 11 méthodes de pointe sur cinq métriques. Le code est disponible à l’adresse suivante : \url{https://pengxi.me}.