11일 전
심층 공정 클러스터링: 상호정보량 최대화 및 최소화를 통한 이론, 알고리즘 및 메트릭
Pengxin Zeng, Yunfan Li, Peng Hu, Dezhong Peng, Jiancheng Lv, Xi Peng

초록
정의 클러스터링은 데이터를 서로 다른 클러스터로 분할하면서 민감한 속성(예: 성별, 인종, RNA 시퀀싱 기법 등)이 클러스터링 결과를 지배하지 않도록 하는 것을 목표로 한다. 최근 여러 연구가 진행되어 큰 성과를 거두었지만, 대부분의 기법들이 휴리스틱적인 접근을 취하고 있으며, 알고리즘 설계를 위한 통합적인 이론이 부족한 실정이다. 본 연구에서는 이러한 공백을 메우기 위해 딥 페어 클러스터링을 위한 상호정보량 이론을 개발하고, 이를 바탕으로 새로운 알고리즘 FCMI를 설계하였다. 간략히 말해, FCMI는 상호정보량을 최대화하고 최소화함으로써 딥 페어 클러스터링에서 기대되는 네 가지 특성—즉, 밀도 높은(콤팩트한), 균형 잡힌, 공정한 클러스터 및 정보량이 풍부한 특징—을 동시에 달성하도록 설계되었다. 이론 및 알고리즘 개선 외에도, 본 연구의 또 다른 기여는 정보이론 기반의 새로운 공정 클러스터링 평가 지표를 제안한 점이다.従来의 평가 지표들과 달리, 본 연구에서 제안한 지표는 클러스터링의 품질과 공정성을 별개로 평가하는 것이 아니라, 종합적으로 통합하여 평가한다. 제안된 FCMI의 효과성을 검증하기 위해, 단일세포 RNA-seq 아틀라스를 포함한 여섯 가지 벤치마크에서 11개의 최신 기법과 비교하여 다섯 가지 지표를 기준으로 실험을 수행하였다. 코드는 \url{https://pengxi.me}에서 접근 가능하다.