한 달 전
샘플의 효과적인 수에 기반한 클래스 균형 손실
Yin Cui; Menglin Jia; Tsung-Yi Lin; Yang Song; Serge Belongie

초록
대규모 실세계 데이터셋의 급속한 증가에 따라, 장미 꼬리 분포(long-tailed data distribution) 문제를 해결하는 것이 중요해졌습니다. 즉, 몇몇 클래스는 대부분의 데이터를 차지하지만, 대부분의 클래스는 부족하게 표현되는 현상을 말합니다. 기존의 해결 방안은 일반적으로 각 클래스의 관측치 수에 따른 재샘플링(re-sampling) 및 재가중(re-weighting) 전략을 채택합니다. 본 연구에서는 샘플 수가 증가함에 따라 새로 추가된 데이터 포인트의 추가적인 이점이 감소한다는 주장을 제시합니다. 우리는 각 샘플을 단일 점이 아닌 작은 인접 영역과 연관시키는 방법으로 데이터 중복을 측정하는 새로운 이론적 프레임워크를 소개합니다. 효과적인 샘플 수는 샘플들의 부피로 정의되며, 간단한 공식 $(1-β^{n})/(1-β)$를 통해 계산할 수 있습니다. 여기서 $n$은 샘플 수이고, $β\in [0,1)$은 하이퍼파라미터입니다. 우리는 각 클래스의 효과적인 샘플 수를 사용하여 손실을 재균형화하는 재가중 방안을 설계하였습니다. 이를 통해 클래스 균형 손실(class-balanced loss)을 생성하였습니다. 인공적으로 유발된 장미 꼬리 분포 CIFAR 데이터셋과 ImageNet, iNaturalist와 같은 대규모 데이터셋에서 종합적인 실험이 수행되었습니다. 실험 결과, 제안된 클래스 균형 손실로 훈련된 네트워크는 장미 꼬리 분포 데이터셋에서 상당한 성능 향상을 달성할 수 있음을 보여주었습니다.