2달 전

다중 작업 딥 신경망의 자연어 이해를 위한 지식 증류를 통한 성능 향상

Xiaodong Liu; Pengcheng He; Weizhu Chen; Jianfeng Gao
다중 작업 딥 신경망의 자연어 이해를 위한 지식 증류를 통한 성능 향상
초록

본 논문은 지식 증류(Knowledge Distillation) 기법을 활용하여 다중태스크 딥 뉴럴 네트워크(Multi-Task Deep Neural Network, MT-DNN) (Liu et al., 2019)의 텍스트 표현 학습 성능을 개선하는 방법에 대해 탐구합니다. 앙상블 학습은 모델 성능을 향상시킬 수 있지만, 큰 DNNs와 같은 MT-DNN 앙상블을 서비스하는 것은 비용이 많이 들 수 있습니다. 본 연구에서는 다중태스크 학습 환경에서 지식 증류 기법(Hinton et al., 2015)을 적용하였습니다. 각 태스크에 대해 서로 다른 MT-DNN 앙상블(교사 모델)을 훈련시키고, 이 앙상블 교사 모델들로부터 지식을 증류하여 단일 MT-DNN(학생 모델)을 다중태스크 학습으로 훈련시킵니다. 실험 결과, 증류된 MT-DNN은 원래의 MT-DNN보다 9개의 GLUE 태스크 중 7개에서 유의미하게 우수한 성능을 보였으며, GLUE 벤치마크(단일 모델)를 83.7%로 개선했습니다(절대적인 개선율 1.5%\footnote{2019년 4월 1일 기준 https://gluebenchmark.com/leaderboard 에서 확인된 GLUE 리더보드 결과를 바탕으로 합니다.}). 해당 코드 및 사전 훈련된 모델들은 https://github.com/namisan/mt-dnn 에 공개될 예정입니다.

다중 작업 딥 신경망의 자연어 이해를 위한 지식 증류를 통한 성능 향상 | 최신 연구 논문 | HyperAI초신경