대규모 점진적 학습

현대 머신 러닝은 새로운 클래스를 점진적으로 학습할 때 재앙적인 잊음(catastrophic forgetting) 문제에 직면합니다. 이는 기존 클래스의 데이터가 부족하기 때문에 성능이 급격히 저하되는 현상을 의미합니다. 기존 클래스에서 얻은 지식을 유지하기 위해 지식 증류(knowledge distilling)와 기존 클래스의 몇 가지 예시(exemplars)를 보관하는 방법을 사용하는 점진적 학습(incremental learning) 방안들이 제안되었습니다. 그러나 이러한 방법들은 많은 수의 클래스로 확장하는 데 어려움을 겪고 있습니다. 우리는 이 문제가 두 가지 요인의 조합 때문이라고 믿습니다: (a) 기존 클래스와 새로운 클래스 간의 데이터 불균형, 그리고 (b) 시각적으로 유사한 클래스의 증가입니다. 특히, 훈련 데이터가 불균형할 때 시각적으로 유사한 클래스 수가 증가함에 따라 이를 구분하는 것이 매우 어렵습니다. 우리는 이 데이터 불균형 문제를 해결하기 위한 간단하면서도 효과적인 방법을 제안합니다. 마지막 완전 연결(fully connected) 계층이 새로운 클래스에 강한 편향성을 가지고 있으며, 이 편향성을 선형 모델(linear model)을 통해 교정할 수 있다는 것을 발견했습니다. 두 개의 편향 매개변수(bias parameters)를 사용하여, 우리의 방법은 ImageNet(1000 클래스)과 MS-Celeb-1M(10000 클래스)라는 두 개의 대규모 데이터셋에서 뛰어난 성능을 보였으며, 각각 최신 알고리즘(state-of-the-art algorithms)보다 11.1%와 13.2%씩 더 우수한 결과를 도출하였습니다.