
초록
지식 증류(Knowledge Distillation)의 경험적 성공에도 불구하고, 현재 최고의 방법들은 학습 과정에서 계산적으로 매우 비효율적이어서 실용적인 적용이 어렵다는 문제가 있다. 이 문제를 해결하기 위해, 저렴한 엔트로피 유사 추정기(entropy-like estimator)에 영감을 받은 두 가지 서로 보완적인 손실 함수를 제안한다. 이러한 손실 함수는 학습자(student)와 교사(teacher)의 표현 간 상관관계와 상호정보량(mutual information)을 최대화하는 것을 목표로 한다. 제안한 방법은 다른 접근 방식들에 비해 훨씬 적은 학습 부담을 가지며, 지식 증류 및 크로스-모델 전이(cross-model transfer) 과제에서 최첨단 성능과 경쟁 가능한 결과를 달성한다. 또한 이 방법이 이진 증류(binary distillation) 과제에서 효과적임을 입증하였으며, 이진 양자화(binary quantisation) 분야에서 새로운 최고 성능을 기록하며 전체 정밀도(full precision) 모델의 성능에 근접함을 보였다. 코드: www.github.com/roymiles/ITRD