
긴 꼬리(long-tailed) 데이터 분포는 많은 다중 레이블 시각 인식 작업에서 흔히 나타나며, 이러한 데이터를 직접 학습에 사용할 경우 꼬리 클래스(가장 적은 레이블 수를 가진 클래스)에서 성능이 상대적으로 낮아지는 경향이 있다. 재균형 데이터 샘플링은 꼬리 클래스의 성능을 향상시킬 수 있지만, 레이블 동시 발생(label co-occurrence)의 영향으로 인해 헤드 클래스(빈도가 높은 클래스)의 성능이 저하될 수 있다. 본 논문에서는 균일 샘플링과 재균형 샘플링을 협업적으로 활용하여, 헤드 클래스와 꼬리 클래스 모두에서 성능 향상을 달성하는 새로운 접근 방식을 제안한다. 구체적으로, 두 가지 분기(branch)를 갖춘 시각 인식 네트워크를 설계하였다. 하나의 분기는 균일 샘플링을 입력으로 사용하고, 다른 분기는 재균형 샘플링을 입력으로 사용한다. 각 분기에서는 가중치 학습 가능한 로짓 보정(logit compensation)을 포함한 이진 교차 엔트로피 기반 분류 손실(binary-cross-entropy-based classification loss)을 통해 시각 인식을 수행한다. 또한, 동일한 입력 이미지가 두 분기로 전달되었을 때 일관성을 유지하도록 하는 새로운 크로스 브랜치 손실(cross-branch loss)을 정의하였다. 제안된 방법은 VOC-LT 및 COCO-LT 데이터셋에서 광범위한 실험을 수행하여, 기존 최고 성능 기법들을 크게 상회함을 입증하였다. 결과적으로, 본 연구는 긴 꼬리 다중 레이블 시각 인식 문제에 대해 전반적인 성능 향상을 실현하였다.