3달 전

라벨 노이즈 학습을 위한 클래스 프로토타입 기반 클리너

Jingjia Huang, Yuanqi Chen, Jiashi Feng, Xinglong Wu
라벨 노이즈 학습을 위한 클래스 프로토타입 기반 클리너
초록

반감독 학습 기반 방법은 현재 노이즈 레이블 학습 문제에 대한 최고 성능(SOTA) 솔루션으로, 먼저 비감독적 레이블 정제기( cleaner )를 학습하여 훈련 샘플을 정제된 데이터를 위한 레이블링된 집합과 노이즈 데이터를 위한 비레이블링된 집합으로 분할하는 데 의존한다. 일반적으로 이 정제기는 각 샘플의 훈련 손실 분포에 혼합 모델(mixture model)을 적합함으로써 얻어진다. 그러나 이 모델링 과정은 \emph{클래스 무관성(class agnostic)}이며, 정제된 샘플과 노이즈 샘플의 손실 분포가 서로 다른 클래스 간에 동일하다는 가정을 내포한다. 그러나 실질적으로는 각 클래스의 학습 난이도가 다르기 때문에 이러한 가정이 항상 성립하지 않으며, 이로 인해 하위 최적의 레이블 노이즈 분할 기준이 도출된다. 본 연구에서는 오랫동안 간과되어 온 이 문제를 지적하고, 간단하면서도 효과적인 해결책인 \textbf{C}lass \textbf{P}rototype-based label noise \textbf{C}leaner(\textbf{CPC})를 제안한다. 기존의 연구들이 모든 클래스를 동일하게 취급하는 반면, CPC는 손실 분포의 이질성(heterogeneity)을 완전히 고려하고, 클래스 인식 기반의 조정(modulation)을 적용하여 정제된 데이터와 노이즈 데이터를 분할한다. CPC는 특징 공간 내에서의 클래스 내 일관성 정규화(intra-class consistency regularization)와 손실 분포 모델링을 동시에 활용함으로써, 정제된 레이블과 노이즈 레이블을 더 잘 구분할 수 있다. 본 방법의 효과성은 기대값-최대화(Expectation-Maximization, EM) 프레임워크로부터 이론적으로 설명함으로써 입증된다. CIFAR-10, CIFAR-100, Clothing1M 및 WebVision과 같은 다양한 노이즈 레이블 벤치마크에서 광범위한 실험을 수행한 결과, CPC는 모든 벤치마크에서 일관되게 성능 향상을 가져왔다. 코드 및 사전 훈련 모델은 \url{https://github.com/hjjpku/CPC.git}에서 공개될 예정이다.