
초록
일반화된 범주 발견 (Generalized Category Discovery, GCD)은 라벨이 부착되지 않은 데이터셋에서 라벨이 부착된 샘플로부터 학습된 지식을 활용하여 새로운 범주를 발견하는 것을 목표로 합니다. 이전 연구들은 매개변수 기반 분류기가 이미 본 범주에 과적합되기 쉽다고 주장하며, 반감독 k-평균을 통해 형성된 비매개변수 기반 분류기의 사용을 지지했습니다. 그러나 본 연구에서는 매개변수 기반 분류기의 실패 원인을 조사하고, 고품질 감독이 제공될 때 이전 설계 선택의 효과성을 검증하며, 신뢰할 수 없는 의사라벨(pseudo-labels)이 주요 문제임을 확인하였습니다. 이러한 결과를 바탕으로 두 가지 예측 편향이 존재함을 보였습니다: 분류기는 이미 본 클래스를 더 자주 예측하는 경향이 있으며, 본 범주와 새로운 범주 간의 불균형한 분포를 생성합니다. 이를 바탕으로 엔트로피 정규화(entropy regularisation)로부터 혜택을 받는 단순하면서도 효과적인 매개변수 기반 분류 방법을 제안합니다. 제안된 방법은 여러 GCD 벤치마크에서 최고 수준의 성능을 달성하였으며, 알려지지 않은 클래스 수에 대한 강력한 견고성을 보여줍니다. 우리는 이번 조사와 제안된 단순한 프레임워크가 이 분야에서 향후 연구를 촉진하는 강력한 기준점(baseline) 역할을 할 것으로 기대합니다. 우리의 코드는 다음 링크에서 이용 가능합니다: https://github.com/CVMI-Lab/SimGCD.