2달 전
DeepStruct: 구조 예측을 위한 언어 모델의 사전 학습
Chenguang Wang; Xiao Liu; Zui Chen; Haoyun Hong; Jie Tang; Dawn Song

초록
우리는 언어 모델의 구조적 이해 능력을 향상시키는 방법을 소개합니다. 이전 접근 방식이 작업 특화 증강을 통해 모델을 미세 조정하는 것과 달리, 우리는 작업에 독립적인 말뭉치 집합에서 구조를 생성하도록 언어 모델을 사전 학습시킵니다. 우리의 구조 사전 학습은 모델이 구조 관련 작업에 대해 학습한 지식의 제로샷 전송(zero-shot transfer)을 가능하게 합니다. 우리는 이 접근 방식의 성능을 10개의 구조 예측 작업(오픈 정보 추출, 공동 개체 및 관계 추출, 명명된 개체 인식, 관계 분류, 의미 역할 라벨링, 이벤트 추출, 공참 해결, 사실 탐지, 의도 검출, 대화 상태 추적)을 포함하는 28개 데이터셋에서 연구했습니다. 또한 우리는 작업 특화 훈련 세트를 사용하여 사전 학습을 더욱 강화했습니다. 실험 결과 100억 파라미터 규모의 언어 모델이 대부분의 작업에 비자기연관적으로(non-trivially) 전송되며, 평가한 28개 데이터셋 중 21개에서 최고 수준의 성능을 달성하였습니다.