비전 트랜스포머를 이용한 불균형 데이터 학습

실세계 데이터는 일반적으로 극도로 불균형하며, 이는 데이터 기반의 심층 신경망에 심각한 편향을 초래하여 장꼬리 인식(Long-Tailed Recognition, LTR)을 막대한 도전 과제로 만든다. 기존의 LTR 방법들은 장꼬리(LT) 데이터로 시각 변환기(Vision Transformers, ViTs)를 훈련하는 경우가 거의 없으며, ViTs의 사전 훈련 가중치를 즉시 사용하는 방식은 공정한 비교를 어렵게 한다. 본 논문에서는 ViTs가 LTR 환경에서 어떻게 작동하는지를 체계적으로 탐구하고, 단지 LT 데이터만을 사용하여 ViTs를 처음부터 훈련할 수 있도록 LiVT를 제안한다. ViTs가 LTR 문제에 더 취약함을 관측한 바, 일반화된 특징을 학습하기 위해 마스킹 생성형 사전 훈련(Masked Generative Pretraining, MGP)을 도입한다. 풍부하고 확실한 실험적 증거를 통해 MGP가 지도 학습 방식보다 더 뛰어난 강건성을 보임을 입증한다. 또한, ViTs와 잘 맞는 성능을 보이는 이진 교차 엔트로피(Binary Cross Entropy, BCE) 손실 함수는 LTR 환경에서는 어려움에 직면한다. 이를 개선하기 위해 이론적으로 탄탄한 균형 BCE(Bal-BCE)를 제안한다. 특히, 시그모이드 함수의 편향 없는 확장 형태를 도출하고, 추가적인 로짓 마진을 보정하여 적용한다. 본 연구의 Bal-BCE는 ViTs의 빠른 수렴을 가능하게 하여 단 몇 에포크 내에 효과적인 학습을 달성한다. 광범위한 실험을 통해 MGP와 Bal-BCE를 활용한 LiVT가 추가 데이터 없이도 ViTs를 효과적으로 훈련시키며, 기존 최상위 수준의 방법들보다 뚜렷한 성능 우위를 보임을 확인하였다. 예를 들어, ViT-B 모델은 iNaturalist 2018 데이터셋에서 별도의 보조 기술 없이도 Top-1 정확도 81.0%를 달성하였다. 코드는 https://github.com/XuZhengzhuo/LiVT 에 공개되어 있다.