2달 전
다수의 언어, 하나의 파서
Waleed Ammar; George Mulcaire; Miguel Ballesteros; Chris Dyer; Noah A. Smith

초록
우리는 여러 언어에 대한 의존 구문 분석을 위해 하나의 다국어 모델을 훈련시키고 이를 사용하여 여러 언어의 문장을 분석합니다. 분석 모델은 (i) 다국어 단어 클러스터와 임베딩; (ii) 토큰 수준의 언어 정보; 그리고 (iii) 언어별 특징(세부적인 품사 태그)를 사용합니다. 이러한 입력 표현은 파서가 여러 언어에서 효과적으로 분석할 뿐만 아니라, 언어학적 보편성과 유형론적 유사성을 기반으로 언어 간 일반화를 수행할 수 있게 하여 제한된 주석 데이터에서도 더 효과적으로 학습할 수 있도록 합니다. 우리의 파서는 대상 언어가 큰 트리뱅크, 작은 트리뱅크 또는 훈련용 트리뱅크가 없는 경우를 포함한 다양한 데이터 시나리오에서 강력한 기준모델과 비교해도 우수한 성능을 보입니다.