BBN: 긴 꼬리 시각 인식을 위한 누적 학습을 갖춘 이측 브랜치 네트워크

우리의 연구는 데이터 분포가 길게 꼬인(long-tailed) 형태를 가진 자연스럽지만 도전적인 시각 인식 과제에 초점을 맞추고 있다. 즉, 일부 클래스는 전체 데이터의 대부분을 차지하지만, 대부분의 클래스는 매우 적은 샘플을 가진다. 기존 문헌에서는 이러한 극단적인 불균형 문제를 완화하기 위해 클래스 재균형 전략(예: 가중치 재조정 및 재샘플링)이 주목받고 효과적인 방법으로 제안되어 왔다. 본 논문에서는 이러한 재균형 기법들이 만족스러운 인식 정확도를 달성하는 이유가, 심층 네트워크의 분류기 학습을 크게 촉진하기 때문임을 처음으로 발견하였다. 그러나 동시에 이러한 기법들은 학습된 심층 특징의 대표성(표현 능력)을 어느 정도 손상시킨다는 부작용도 존재한다. 따라서 본 연구에서는 표현 학습과 분류기 학습을 동시에 고려할 수 있는 통합적인 이중 브랜치 네트워크(Bilateral-Branch Network, BBN)를 제안한다. 이 네트워크는 각 브랜치가 독자적인 역할을 수행하면서도 전체적으로 균형을 이루도록 설계되었다. 특히, 본 BBN 모델은 새로운 누적 학습 전략(cumulative learning strategy)을 탑재하여, 먼저 보편적인 패턴을 학습한 후 점차 꼬리 부분의 데이터(tail data)에 집중할 수 있도록 설계되었다. 네 가지 벤치마크 데이터셋(대규모 iNaturalist 데이터셋 포함)에서 실시한 광범위한 실험을 통해 제안된 BBN이 최첨단 기법들을 크게 능가함을 입증하였다. 또한, 보정 실험을 통해 본 연구의 초기 발견과 BBN의 타깃 설계가 길게 꼬인 문제 해결에 효과적임을 확인할 수 있었다. 본 방법은 iNaturalist 2019 대규모 종 분류 경진대회에서 1위를 차지하였으며, 코드는 오픈소스로 공개되어 있으며, https://github.com/Megvii-Nanjing/BBN 에서 확인할 수 있다.