메모리 기반 지터: 메모리 내 다양성을 통한 긴 꼬리 데이터에서의 시각 인식 향상

이 논문은 긴 꼬리 분포를 가진 데이터에서의 딥 시각 인식을 다룬다. 보편성을 확보하기 위해, 두 가지 응용 시나리오인 딥 분류와 딥 메트릭 학습을 고려한다. 긴 꼬리 분포 하에서 다수의 클래스(즉, 꼬리 클래스)는 상대적으로 적은 샘플만을 차지하며, 클래스 내 다양성이 부족할 위험이 있다. 근본적인 해결책은 꼬리 클래스의 다양성을 더 높게 증강하는 것이다. 이를 위해 우리는 단순하고 신뢰할 수 있는 방법인 메모리 기반 진동(Memory-based Jitter, MBJ)을 제안한다. 학습 과정에서 딥 모델은 매 반복마다 파라미터가 지속적으로 변화함에 따라 \emph{가중치 진동(weight jitters)} 현상이 발생함을 관찰하였다. 이로 인해 동일한 이미지를 입력으로 주었을 때, 모델의 두 가지 이전 버전이 깊이 매핑된 공간에서 서로 다른 특징을 생성하게 되어 \emph{특징 진동(feature jitters)}이 발생한다. 메모리 백을 활용해 여러 학습 반복 동안 발생한 이러한 (모델 또는 특징) 진동을 수집함으로써, 메모리 기반 진동을 얻게 된다. 축적된 진동은 꼬리 클래스의 클래스 내 다양성을 향상시키고, 결과적으로 긴 꼬리 시각 인식 성능을 개선한다. 미세한 수정만으로도 MBJ는 딥 이미지 분류와 딥 메트릭 학습이라는 두 가지 핵심 시각 인식 과제에 적용 가능하다. 다섯 개의 긴 꼬리 분류 벤치마크와 두 개의 딥 메트릭 학습 벤치마크에서 실시한 광범위한 실험 결과, 상당한 성능 향상이 나타났으며, 두 과제 모두 최신 기술(SOTA) 수준의 성능을 달성하였다.