
노이즈 있는 레이블 학습을 위한 일반적인 해결책을 설계하는 데 있어, 학습 샘플이 잘못 레이블링될 확률을 설명하는 레이블 노이즈 전이 행렬(transition matrix)은 핵심적인 역할을 한다. 기존의 연구들은 대부분 특정 클래스에 거의 확실하게 속하는 인스턴스, 즉 ‘앵커 포인트(anchoring points)’ 또는 그 근사치를 찾는 데 크게 의존해왔다. 그러나 앵커 포인트를 찾는 것은 여전히 비약적인 도전 과제이며, 가용한 앵커 포인트의 수가 제한될 경우 추정 정확도도 제약을 받는다. 본 논문에서는 위와 같은 작업을 위한 대안적 접근을 제안한다. 본 연구의 주요 기여는 클러스터 가능성(clusterability) 조건을 기반으로 한 효율적인 추정 절차를 발견한 것이다. 우리는 특성 표현이 클러스터 가능할 경우, 이웃 표현 간의 최대 3차 순위 일치(consensus)를 사용함으로써 유일한 전이 행렬을 추정하는 것이 충분함을 증명한다. 기존의 앵커 포인트 기반 방법과 비교해 본 방법은 훨씬 더 많은 인스턴스를 활용하며, 샘플 복잡도(sample complexity) 측면에서 훨씬 더 뛰어난 성능을 달성한다. 우리는 CIFAR-10/100에서 생성된 합성 노이즈 레이블과 Clothing1M, 그리고 본 연구자가 자체 수집한 인간 수준의 노이즈 레이블을 포함한 CIFAR-10 데이터셋을 대상으로 추정 정확도와 본 방법의 장점을 실험적으로 입증하였다. 본 연구의 코드와 인간 수준의 노이즈 레이블을 포함한 CIFAR-10 레이블은 https://github.com/UCSC-REAL/HOC 에서 공개되어 있다.