
우리는 다양한 언어와 사전 학습 조건에서 구성 요소 분석(constituency parsing)이 비지도 사전 학습(unsupervised pre-training)으로부터 이점을 얻는다는 것을 보여줍니다. 먼저 영어에 대해 fastText, ELMo, BERT를 사용하지 않는 경우와 비교하여 BERT가 ELMo보다 우수한 성능을 내는 것을 확인하였으며, 이는 주로 모델의 용량 증가 때문입니다. 반면, ELMo는 비문맥적(non-contextual)인 fastText 임베딩보다 우수한 성능을 나타냈습니다. 또한 11개의 테스트된 모든 언어에서 사전 학습이 유익하다는 것을 발견하였으나, 큰 모델 크기(1억 개 이상의 매개변수)는 각 언어별로 별도의 모델을 학습하는 데 있어 계산적으로 비용이 많이 든다는 문제를 야기하였습니다. 이러한 단점을 해결하기 위해, 우리는 공동 다국어 사전 학습과 미세 조정(fine-tuning)을 통해 최종 모델에서 대부분의 매개변수를 공유할 수 있음을 보여주었습니다. 언어당 하나의 모델을 미세 조정하는 것과 비교하여 모델 크기가 10배 줄었음에도 불구하고, 전체적으로 상대 오류율은 3.2%만 증가하였습니다. 또한 우리는 공동 미세 조정 아이디어를 더욱 탐구하여 저자원(low-resource) 언어가 다른 언어의 더 큰 데이터셋으로부터 이점을 얻을 수 있는 방법을 제시하였습니다. 마지막으로, 우리는 11개 언어에 대한 새로운 최고 수준의 결과를 시연하였는데, 이에는 영어(95.8 F1 점수)와 중국어(91.8 F1 점수)도 포함되었습니다.