2달 전

75개 언어, 1개 모델: 보편적 의존 관계 분석

Dan Kondratyuk; Milan Straka
75개 언어, 1개 모델: 보편적 의존 관계 분석
초록

우리는 UDify를 소개합니다. UDify는 75개 언어에 걸쳐 124개의 Universal Dependencies 트리뱅크에서 동시에 정확한 보편적 품사, 형태소 특징, 레마, 그리고 의존 구조 트리를 예측할 수 있는 다언어 다중 작업 모델입니다. 104개 언어로 사전 학습된 다언어 BERT 자기 주의 모델을 활용하여, 모든 데이터셋을 하나로 연결하고 각 UD 작업에 대한 간단한 소프트맥스 분류기를 사용하여 미세 조정하면, 어떤 순환 또는 언어별 구성 요소도 필요하지 않으면서 최고 수준의 UPOS, UFeats, Lemmas, UAS, 그리고 LAS 점수를 얻을 수 있음을 확인했습니다. 우리는 UDify를 다언어 학습에 평가하여 저자원 언어가 교차 언어 주석에서 가장 큰 혜택을 받는다는 것을 보여주었습니다. 또한 제로샷 학습에 대해 평가하였으며, 결과는 UDify나 BERT가 사전에 학습되지 않은 언어에서도 강력한 UD 예측을 제공한다는 것을 시사하고 있습니다. UDify의 코드는 https://github.com/hyperparticle/udify에서 이용 가능합니다.

75개 언어, 1개 모델: 보편적 의존 관계 분석 | 최신 연구 논문 | HyperAI초신경