2달 전

상식 추론을 위한 하이브리드 신경망 모델

Pengcheng He; Xiaodong Liu; Weizhu Chen; Jianfeng Gao
상식 추론을 위한 하이브리드 신경망 모델
초록

본 논문은 상식 추론을 위한 하이브리드 신경망(Hybrid Neural Network, HNN) 모델을 제안합니다. HNN은 마스킹 언어 모델과 의미 유사성 모델이라는 두 개의 구성 요소로 이루어져 있으며, BERT 기반의 문맥 인코더를 공유하지만 서로 다른 모델 특화 입력 및 출력 레이어를 사용합니다. HNN은 세 가지 고전적인 상식 추론 과제에서 새로운 최고 수준의 결과를 얻었으며, WNLI 벤치마크는 89%, Winograd Schema Challenge(WSC) 벤치마크는 75.1%, PDP60 벤치마크는 90.0%까지 성능을 향상시켰습니다. 감소 실험(ablation study) 결과에 따르면, 언어 모델과 의미 유사성 모델은 상식 추론에 있어 보완적인 접근 방식이며, HNN은 이 두 방법의 장점을 효과적으로 결합하고 있습니다. 코드와 사전 학습된 모델들은 https://github.com/namisan/mt-dnn에서 공개될 예정입니다.