17일 전

도메인 오프셋 하에서 웨이트 평균화는 지식 증류에 긍정적 영향을 미친다

Valeriy Berezovskiy, Nikita Morozov
도메인 오프셋 하에서 웨이트 평균화는 지식 증류에 긍정적 영향을 미친다
초록

지식 증류(Knowledge Distillation, KD)는 실용적인 딥러닝 응용 분야에서 널리 사용되는 강력한 모델 압축 기법이다. 이 기법은 큰 교사 네트워크를 모방하도록 작은 학습자 네트워크를 훈련시키는 데 초점을 맞추고 있다. 기존에 알려진 바와 같이 KD는 i.i.d(i.i.d. 설정) 환경에서 학습자 네트워크의 일반화 성능 향상에 기여한다는 점은 널리 인지되어 있지만, 도메인 전이(domain shift) 상황에서의 성능—즉, 훈련 과정에서 접한 적이 없는 도메인의 데이터에 대해 학습자 네트워크가 어떻게 작동하는지—에 대한 연구는 문헌상 거의 이루어지지 않았다. 본 논문에서는 지식 증류와 도메인 일반화(domain generalization) 연구 분야 간의 격차를 좁히는 데 한 걸음 내딛는다. 우리는 도메인 일반화 분야에서 제안된 가중치 평균화 기법, 예를 들어 SWAD(Snapshot Weight Averaging with Domain Generalization)와 SMA(Simple Moving Average)가 도메인 전이 상황에서도 지식 증류의 성능을 향상시킬 수 있음을 보여준다. 더불어, 훈련 중 검증 데이터 평가를 필요로 하지 않는 간단한 가중치 평균화 전략을 제안하며, 이 전략이 KD에 적용되었을 때 SWAD 및 SMA와 비슷한 성능을 보임을 확인한다. 본 연구에서 제안하는 최종 증류 방법은 가중치 평균화 지식 증류(Weight-Averaged Knowledge Distillation, WAKD)로 명명한다.

도메인 오프셋 하에서 웨이트 평균화는 지식 증류에 긍정적 영향을 미친다 | 최신 연구 논문 | HyperAI초신경