2달 전

시퀀스 레벨 지식 증류

Yoon Kim; Alexander M. Rush
시퀀스 레벨 지식 증류
초록

신경망 기계 번역(Neural Machine Translation, NMT)은 통계적 접근법보다 잠재적으로 더 간단한 새로운 번역 공식을 제공합니다. 그러나 경쟁력 있는 성능을 달성하기 위해서는 NMT 모델이 매우 큰 규모가 필요합니다. 본 논문에서는 지식 증류(Knowledge Distillation) 접근법(Bucila et al., 2006; Hinton et al., 2015)을 고려하여, 다른 영역에서 신경망 모델의 크기를 줄이는 데 성공한 이 방법을 NMT 문제에 적용해 보았습니다. 우리는 단어 수준 예측에 표준 지식 증류를 적용하면 NMT에 효과적일 수 있음을 입증하였으며, 또한 성능을 더욱 향상시키는 두 가지 새로운 시퀀스 수준의 지식 증류 버전을 소개하였습니다. 의외로도, 이러한 방법들은 원래 교사 모델에서도 비ーム 검색(beam search)의 필요성을 제거하는 것으로 나타났습니다. 우리의 최고 학생 모델은 최신 교사 모델보다 10배 빠르게 실행되며, 성능 저하가 거의 없습니다. 또한 지식 증류 없이 훈련된 기준 모델과 비교하여, 탐욕 해독(greedy decoding)에서는 4.2 BLEU 점수, 비ーム 검색에서는 1.7 BLEU 점수로 상당히 우수한 결과를 보였습니다. 지식 증류 위에 가중치 프루닝(weight pruning)을 적용하면, 학생 모델의 매개변수 개수가 원래 교사 모델보다 13배 적어지며, BLEU 점수가 0.4 감소하는 결과를 얻었습니다.

시퀀스 레벨 지식 증류 | 최신 연구 논문 | HyperAI초신경