머리 속에 다 담겨 있다: 분류기 공유를 통한 표현 지식 증류

대표성 지식 증류(Representation Knowledge Distillation)는 한 모델에서 다른 모델로 풍부한 정보를 전달하는 것을 목표로 한다. 대표적인 대표성 증류 기법은 모델의 임베딩 벡터 간의 거리 측도를 직접 최소화하는 데 집중한다. 그러나 이러한 직접적 접근 방식은 대표 벡터 내에 포함된 고차원적 의존성(고차 의존성)을 효과적으로 전달하는 데 한계가 있으며, 교사 모델과 학습자 모델 간의 능력 차이를 다루는 데도 어려움이 있다. 또한 전통적인 지식 증류에서는 교사 모델이 학습자 모델의 특성과 능력에 대해 인지하지 못한 채 학습된다. 본 논문에서는 교사 모델과 학습자 모델 간 분류기 공유를 활용하여 대표성 증류를 향상시키는 두 가지 메커니즘을 탐구한다. 먼저, 교사 모델의 분류기가 학습자 모델의 백본(backbone)에 연결되어 추가적인 분류 헤드로 작동하는 간단한 구조를 제안한다. 그 다음, 학습자 모델의 제한된 능력을 고려하여 교사 모델을 적절히 조정하기 위한 '학습자 인지형 메커니즘'을 제안한다. 이 메커니즘은 일시적인 학습자 분류기 헤드를 사용해 교사 모델을 학습함으로써, 학습자 모델의 특성에 맞게 교사 모델을 조정한다. 우리는 이러한 두 가지 메커니즘을 분석하고 비교하여, 이미지 분류, 미세 분류, 얼굴 인증 등 다양한 데이터셋과 작업에서 그 효과성을 입증한다. 특히, MobileFaceNet 모델을 사용하여 IJB-C 데이터셋에서 얼굴 인증(task)에서 최신 기준(SOTA) 성능을 달성하였으며, FAR = 1e-5일 때 TAR = 93.7%를 기록하였다. 코드는 https://github.com/Alibaba-MIIL/HeadSharingKD 에서 공개되어 있다.