11일 전

선택적 의사라벨 클러스터링

Louis Mahon, Thomas Lukasiewicz
선택적 의사라벨 클러스터링
초록

심층 신경망(DNN)은 고차원 데이터의 군집화라는 도전적인 과제를 해결할 수 있는 방법을 제공한다. DNN은 유용한 특징을 추출함으로써, 군집화 기법에 더 적합한 낮은 차원의 표현을 생성할 수 있다. 일반적으로 군집화는 학습 레이블이 제공되지 않는 순수 비지도 학습 환경에서 수행되므로, DNN 특징 추출기의 학습 방법에 대한 질문이 제기된다. 현재까지 가장 정확한 접근 방식은 DNN 학습을 군집화 목표와 함께 통합함으로써, 군집화 과정에서 얻은 정보를 활용하여 DNN을 업데이트하여 보다 나은 군집화를 위한 특징을 생성하는 것이다. 그러나 이러한 접근 방식의 문제점은 군집화 알고리즘에 의해 생성되는 '가짜 레이블(pseudo-labels)'이 노이즈를 포함하고 있으며, 이러한 오류가 DNN의 학습을 저해할 수 있다는 점이다. 본 논문에서는 DNN 학습에 가장 신뢰도가 높은 가짜 레이블만을 사용하는 선택적 가짜 레이블 군집화(Selective Pseudo-Label Clustering)를 제안한다. 본 논문에서는 특정 조건 하에서 성능 향상이 보장됨을 수학적으로 증명한다. 이미지 군집화 과제에 적용한 결과, 제안하는 새로운 방법은 세 가지 인기 있는 이미지 데이터셋에서 최고 수준의 성능을 달성하였다. 코드는 https://github.com/Lou1sM/clustering 에서 공개되어 있다.

선택적 의사라벨 클러스터링 | 최신 연구 논문 | HyperAI초신경