긴 꼬리 시각 인식을 위한 레이블 분포의 분리

현재 장꼬리 시각 인식(long-tailed visual recognition)의 평가 프로토콜은 장꼬리 소스 레이블 분포에서 분류 모델을 학습한 후, 균일한 타겟 레이블 분포에서 성능을 평가한다. 그러나 타겟 분포 역시 장꼬리일 수 있으므로, 이러한 프로토콜은 실용성에 의문을 제기할 수 있다. 따라서 본 연구에서는 타겟과 소스 레이블 분포가 다를 수 있는 레이블 전이(label shift) 문제로 장꼬리 시각 인식을 재정의한다. 레이블 전이 문제를 다루는 데 있어 큰 장애물 중 하나는 소스 레이블 분포와 모델 예측 간의 얽힘(entanglement)이다. 본 논문에서는 소스 레이블 분포를 모델 예측에서 분리(dise ntangle)하는 데 초점을 맞춘다. 먼저, 교차 엔트로피 손실과 소프트맥스 함수로 학습된 모델 예측을 사후 처리(post-processing)하여 타겟 레이블 분포를 일치시키는 간단하지만 간과된 베이스라인 방법을 제안한다. 이 방법은 벤치마크 데이터셋에서 최첨단 기법들을 초월하지만, 학습 단계에서 소스 레이블 분포를 모델 예측에서 직접적으로 분리함으로써 더 향상될 수 있다. 이를 위해, 도네스커-바라다한(Donsker-Varadhan) 표현의 최적 경계(optimal bound)를 기반으로 한 새로운 손실 함수인 LAbel distribution DisEntangling (LADE) 손실을 제안한다. LADE는 CIFAR-100-LT, Places-LT, ImageNet-LT, iNaturalist 2018와 같은 다양한 벤치마크 데이터셋에서 최첨단 성능을 달성한다. 또한, 다양한 이동된 타겟 레이블 분포에서 기존 방법들을 상회하며, 제안하는 방법의 일반적인 적응 가능성을 입증한다.