
클래스 수가 증가함에 따라, 데이터가 자연적으로 긴 꼬리(long-tailed) 구조를 띠기 때문에, 다수의 클래스 간에 균형 잡힌 데이터셋을 유지하는 것은 어렵다. 특히 하나의 수집 가능한 단위(예: 하나의 이미지 내에 여러 개의 시각적 인스턴스가 존재하는 경우)에서 관심 샘플이 서로 겹쳐 있는 경우, 이는 더욱 불가능해진다. 따라서 대규모 딥러닝에서 긴 꼬리 분류(long-tailed classification)는 핵심 과제가 된다. 그러나 기존의 방법들은 주로 재가중 또는 재샘플링 휴리스틱에 기반하고 있으며, 이는 근본적인 이론적 기반을 결여하고 있다. 본 논문에서는 기존 방법들의 원인을 밝히는 동시에 새로운 원리적 해결책을 도출할 수 있는 인과 추론(causal inference) 프레임워크를 제안한다. 구체적으로, 본 연구의 이론은 SGD 모멘텀이 긴 꼬리 분류에서 본질적으로 교란 변수(confounder)임을 보여준다. 한편으로, 모멘텀은 꼬리 예측을 머리 쪽으로 편향시키는 해로운 인과적 영향을 미친다. 다른 한편으로는, 모멘텀에 의해 유도되는 매개 효과는 표현 학습과 머리 클래스 예측에 유익한 영향을 준다. 본 프레임워크는 입력 샘플에 의해 유발된 직접적인 인과 효과를 추구함으로써, 모멘텀의 모순된 영향을 우아하게 분리한다. 특히 학습 시에는 인과 개입(causal intervention)을, 추론 시에는 반사적 추론(counterfactual reasoning)을 활용하여 '나쁜' 영향은 제거하면서 '좋은' 영향은 유지한다. 이러한 접근을 통해 긴 꼬리 시각 인식 벤치마크 세 곳에서 새로운 최고 성능(SOTA)을 달성하였다. 즉, 긴 꼬리 CIFAR-10/-100, ImageNet-LT(이미지 분류), LVIS(인스턴스 세그멘테이션)에서 모두 최신 기준을 돌파하였다.