11日前

最大化および最小化相互情報量を用いた深層公平クラスタリング:理論、アルゴリズムおよびメトリクス

Pengxin Zeng, Yunfan Li, Peng Hu, Dezhong Peng, Jiancheng Lv, Xi Peng
最大化および最小化相互情報量を用いた深層公平クラスタリング:理論、アルゴリズムおよびメトリクス
要約

公平クラスタリング(Fair clustering)は、データを明確なクラスタに分割する一方で、性別や人種、RNAシーケンシング技術といったセンシティブな属性がクラスタリング結果を支配しないようにする手法である。近年、多数の研究が行われ、大きな成果を挙げているものの、それらの多くはヒューリスティックなアプローチに依拠しており、アルゴリズム設計のための統一的な理論はまだ存在しない。本研究では、深層学習を用いた公平クラスタリングのための相互情報量理論を構築することで、この空白を埋め、新たなアルゴリズムFCMI(Fair Clustering via Mutual Information)を提案する。要するに、相互情報量の最大化と最小化を適切に制御することで、深層公平クラスタリングにおいて求められる四つの特性——すなわち、凝集性の高いクラスタ、バランスの取れたクラスタ、公平性の確保、および情報量豊かな特徴量——を同時に達成するように設計されている。本研究の貢献は、理論とアルゴリズムの開発に加え、情報理論に基づいた新たな公平クラスタリング評価指標の提案である。既存の評価指標がクラスタリング品質と公平性を別々に測定するのに対し、本研究で提案する指標は、これらを統合的に評価する点で特徴的である。提案されたFCMIの有効性を検証するため、単細胞RNA-seqアトラスを含む6つのベンチマークデータセットを用いて、5つの評価指標に基づき11の最先端手法と比較した実験を行った。実装コードは、\url{https://pengxi.me} から入手可能である。