한 달 전
다중 작업 모델의 통합: 여러 NLP 작업을 위한 신경망 성장시키기
Kazuma Hashimoto; Caiming Xiong; Yoshimasa Tsuruoka; Richard Socher

초록
전통적으로 전이 학습과 다중 과제 학습은 단일 소스-타겟 쌍이나 매우 유사한 몇 개의 과제에 초점을 맞추어 왔습니다. 이상적으로는 형태소, 구문, 의미론적 수준이 단일 모델에서 훈련됨으로써 서로에게 이익을 줄 것입니다. 우리는 점진적으로 깊이를 늘려 점점 복잡해지는 과제들을 해결하기 위한 공동 다중 과제 모델과 전략을 소개합니다. 상위 계층은 언어학적 계층구조를 반영하기 위해 하위 수준의 과제 예측에 대한 단축 연결(shortcut connections)을 포함합니다. 우리는 간단한 정규화 항(regularization term)을 사용하여 한 과제의 손실(loss)을 개선하면서 다른 과제들의 치명적인 간섭(catastrophic interference) 없이 모든 모델 가중치를 최적화할 수 있도록 합니다. 우리의 단일 엔드투엔드(end-to-end) 모델은 태깅, 파싱, 관련성, 함의성 과제 등 5개의 다른 과제에서 최신 또는 경쟁력 있는 결과를 얻었습니다.