장기 테일 인식을 위한 표현과 분류기의 분리

시각 세계의 장꼬리 분포는 클래스 불균형 문제를 처리하는 데 깊은 학습 기반 분류 모델에 큰 도전을 제기합니다. 기존 해결 방안은 일반적으로 클래스 균형 전략, 예를 들어 손실 재가중(loss re-weighting), 데이터 재샘플링(data re-sampling), 또는 헤드 클래스에서 테일 클래스로의 전이 학습(transfer learning) 등을 포함하지만, 대부분의 방법은 표현과 분류기를 공동으로 학습하는 방식을 따릅니다. 본 연구에서는 학습 절차를 표현 학습과 분류로 분리하고, 다양한 균형 조정 전략이 장꼬리 인식에 미치는 영향을 체계적으로 탐구하였습니다. 그 결과는 놀랍습니다: (1) 데이터 불균형이 고품질 표현을 학습하는 데 문제가 되지 않을 수 있다는 점; (2) 가장 간단한 인스턴스 균형(natural) 샘플링으로 학습된 표현을 사용하더라도, 분류기만 조정하여 강력한 장꼬리 인식 능력을 달성할 수 있다는 점입니다. 우리는 광범위한 실험을 수행하였으며, ImageNet-LT, Places-LT 및 iNaturalist와 같은 일반적인 장꼬리 벤치마크에서 새로운 최고 성능을 기록하였습니다. 이는 복잡한 메모리를 갖춘 모듈까지 신경 쓰며 세심하게 설계된 손실 함수나 샘플링 전략보다도, 표현과 분류를 분리하는 간단한 접근법으로 더 우수한 성능을 낼 수 있음을 보여줍니다. 우리의 코드는 https://github.com/facebookresearch/classifier-balancing에서 확인할 수 있습니다.