MEAL V2: 기교 없이 Vanilla ResNet-50을 ImageNet에서 Top-1 정확도 80% 이상으로 향상시키기

우리는 기존 분류 시스템의 문제점을 분석함으로써, 단순하면서도 효과적인 지식 증류 프레임워크를 제안한다. 이 프레임워크는 특별한 기법 없이도 기존의 ResNet-50 모델을 ImageNet에서 80% 이상의 Top-1 정확도로 향상시킬 수 있다. 기존의 앙상블 지식 증류 방법을 단순화하기 위해, 구분자(discriminator)를 활용한 기반 방법을 다음과 같이 개선한다: (1) 유사도 손실과 구분자는 최종 출력에만 적용하고, (2) 모든 교사 모델의 소프트맥스 확률 평균을 더 강력한 감독 신호로 사용한다. 놀랍게도, 본 연구는 증류에 대한 세 가지 새로운 관점을 제시한다: (1) 소프트 레이블 자체가 정규화 효과를 가지므로, 가중치 감쇠(weight decay)를 약화하거나 완전히 제거할 수 있다; (2) 학습자(student)에 대한 좋은 초기화가 매우 중요하다; (3) 가중치가 잘 초기화된 경우, 증류 과정에서 one-hot 또는 하드 레이블이 필수적이지 않다. 본 연구에서 제안하는 간단한 프레임워크는 기존에 흔히 사용되는 기법들—예: 아키텍처 수정, ImageNet 외부 데이터 사용, AutoAug/RandAug, 코사인 학습률, Mixup/CutMix 훈련, 레이블 스무딩 등—을 전혀 사용하지 않고도 최신 기술 수준의 성능을 달성함을 보여준다. 단일 224×224 크기의 이미지 캡처를 사용하여, 기존의 ResNet-50 모델을 기반으로 80.67%의 Top-1 정확도를 달성하였으며, 동일한 아키텍처 조건 하에서 이전 최고 성능을 크게 능가한다. 본 연구 결과는 지식 증류 기반의 강력한 기준 성능(baseline)으로 간주될 수 있으며, 현재까지 알려진 바에 따르면, 아키텍처 수정 없이도 ImageNet에서 80%를 초과하는 성능을 달성한 최초의 방법이다. 더 작은 ResNet-18에 대해서도, 본 증류 프레임워크는 정확도를 69.76%에서 73.19%로 지속적으로 향상시켜, 실세계 응용에서 큰 실용적 가치를 보여준다. 본 연구의 코드와 모델은 다음 링크에서 공개된다: https://github.com/szq0214/MEAL-V2.