2달 전

다중 작업 딥 뉴럴 네트워크를 이용한 자연어 이해

Xiaodong Liu; Pengcheng He; Weizhu Chen; Jianfeng Gao
다중 작업 딥 뉴럴 네트워크를 이용한 자연어 이해
초록

본 논문에서는 여러 자연어 이해(NLU) 작업에 걸쳐 표현을 학습하기 위한 다중태스크 딥 뉴럴 네트워크(MT-DNN)를 제시합니다. MT-DNN은 대량의 태스크 간 데이터를 활용할 뿐만 아니라, 일반적인 표현을 생성하여 새로운 태스크와 도메인에 적응하는 규제 효과도 제공합니다. MT-DNN은 Liu 등(2015)이 제안한 모델을 확장하여 사전 훈련된 양방향 트랜스포머 언어 모델인 BERT (Devlin 등, 2018)를 통합합니다. MT-DNN은 SNLI, SciTail 및 GLUE의 9개 중 8개 작업을 포함한 10개의 NLU 작업에서 새로운 최고 수준의 결과를 달성하며, GLUE 벤치마크를 82.7% (절대적으로 2.2% 향상)으로 끌어올렸습니다. 또한 SNLI와 SciTail 데이터셋을 사용하여 MT-DNN이 학습한 표현이 사전 훈련된 BERT 표현보다 현저히 적은 도메인 내 라벨로 도메인 적응이 가능함을 보여주었습니다. 코드와 사전 훈련된 모델은 공개적으로 https://github.com/namisan/mt-dnn에서 이용 가능합니다.

다중 작업 딥 뉴럴 네트워크를 이용한 자연어 이해 | 최신 연구 논문 | HyperAI초신경