
클래스 불균형은 실제 데이터셋에서 가장 큰 도전 과제 중 하나로, 일부 클래스(이를 다수 클래스라 함)가 나머지 클래스(소수 클래스라 함)보다 훨씬 많은 데이터 샘플을 차지하는 상황을 의미한다. 이러한 데이터셋을 사용해 깊은 신경망을 학습할 경우, 모델의 성능은 일반적으로 다수 클래스에 편향되게 된다. 기존의 대부분의 연구들은 다양한 방식(예: 데이터 재샘플링, 비용 민감 학습 등)으로 소수 클래스에 더 높은 가중치를 부여함으로써 클래스 불균형 문제를 해결하려고 시도한다. 그러나 우리는 훈련 데이터의 수가 항상 가중치 전략을 결정하는 좋은 지표가 되지 않을 수 있다고 주장한다. 왜냐하면 일부 소수 클래스는 적은 수의 훈련 데이터로도 충분히 잘 표현될 수 있기 때문이다. 이러한 클래스에 과도하게 가중치를 부여하면 모델의 전반적인 성능 저하로 이어질 수 있다. 우리는 모델이 클래스를 얼마나 '어렵게' 인식하는지가 가중치 결정에 더 중요하다고 주장한다. 이러한 관점에서, 각 샘플이 속한 클래스의 어려움에 따라 동적으로 가중치를 분배하는 새로운 손실 함수인 '클래스별 어려움 균형 손실(Class-wise Difficulty-Balanced loss, CDB loss)'을 제안한다. 참고로, 할당된 가중치는 모델의 학습 진행 과정에 따라 클래스의 어려움이 변화함에 따라 동적으로 조정된다. 본 연구는 이미지 데이터셋(인공적으로 불균형을 유도한 MNIST, 긴 꼬리 구조를 가진 CIFAR 및 ImageNet-LT)과 영상 데이터셋(EGTEA)을 대상으로 광범위한 실험을 수행하였다. 실험 결과, CDB 손실은 데이터 유형(영상 또는 이미지)에 관계없이 최근 제안된 손실 함수들보다 일관되게 우수한 성능을 보였다.