2달 전

54개 언어의 품사 태깅, 어근화 및 의존 구문 분석에서 문맥화된 임베딩 평가

Milan Straka; Jana Straková; Jan Hajič
54개 언어의 품사 태깅, 어근화 및 의존 구문 분석에서 문맥화된 임베딩 평가
초록

우리는 Universal Dependencies 2.3의 54개 언어에 대한 89개 문장집에서 제안된 세 가지 최근 맥락화 임베딩 방법을 POS 태깅, 어근 추출(lemmatization), 그리고 의존성 구문 분석(dependency parsing) 세 가지 작업에 대해 폭넓게 평가하였습니다. BERT, Flair, ELMo를 UDPipe 2.0의 강력한 베이스라인으로 사용하여, CoNLL 2018 공유 작업에서 가장 우수한 성능을 보인 시스템 중 하나이자 EPE 2018의 전체 우승자인 이 시스템의 사전 학습 임베딩 입력으로 활용하였습니다. 우리는 이 세 가지 맥락화 단어 임베딩 방법 간의 일대일 비교뿐만 아니라 word2vec 유형의 사전 학습 임베딩과 문자 수준(end-to-end character-level) 단어 임베딩과의 비교도 제시합니다. 또한, CoNLL 2018 공유 작업에서 UD 2.2에 대한 결과와 비교하여 모든 세 가지 작업에서 최신 기술(state-of-the-art) 수준의 결과를 보고합니다.

54개 언어의 품사 태깅, 어근화 및 의존 구문 분석에서 문맥화된 임베딩 평가 | 최신 연구 논문 | HyperAI초신경