긴꼬리 분류를 위한 특징 생성

시각적 세계는 객체 또는 장면 인스턴스의 수에 있어서 자연스럽게 불균형을 보이며, 이는 \emph{긴꼬리 분포}(long-tailed distribution)를 초래한다. 이러한 불균형은 딥러닝 기반 분류 모델에 있어 중요한 도전 과제를 제기한다. 꼬리 클래스의 인스턴스를 과도하게 샘플링하는 방식은 이 불균형을 해결하려는 시도이지만, 제한된 시각적 다양성으로 인해 표현 능력이 낮은 네트워크가 생성된다. 이러한 문제를 해결하기 위한 단순한 접근은 표현 네트워크와 분류기 네트워크를 분리하고, 과도 샘플링을 분류기 학습에만 사용하는 것이다. 본 논문에서는 동일한 이미지(그리고 그에 따른 특징)를 반복적으로 재샘플링하는 방식을 피하고, 꼬리 클래스의 분포를 추정함으로써 의미 있는 특징을 생성하려는 새로운 방향을 탐구한다. 최근 소수 샘플 학습(few-shot learning) 연구에서 영감을 얻어, 보정된 분포를 생성하여 추가적인 특징을 샘플링하고, 이를 분류기 학습에 활용한다. 다양한 불균형 요인을 가진 CIFAR-100-LT(long-tail) 데이터셋과 mini-ImageNet-LT(long-tail) 데이터셋에서 수행한 여러 실험을 통해 제안한 방법의 효과성을 입증하고, 새로운 최고 성능(state-of-the-art)을 달성하였다. 또한 t-SNE 시각화를 통해 생성된 특징의 질적 분석과, 꼬리 클래스 분포 보정에 사용된 가장 가까운 이웃(nearest neighbors)을 분석하였다. 본 연구의 코드는 https://github.com/rahulvigneswaran/TailCalibX 에 공개되어 있다.