12일 전

다중 소스 전이 구문 분석을 위한 표현 학습 프레임워크

{Ting Liu, Haifeng Wang, David Yarowsky, Wanxiang Che, Jiang Guo}
초록

다국어 모델 전이(multi-source transfer)는 어노테이션된 트리뱅크가 제공되지 않는 저자원 언어에 대해 의존성 파서를 유도하는 데 있어 유망한 접근법으로 여겨지고 있다. 모델 전이 기법의 주요 장애 요인은 두 가지로 나뉜다. 첫째, 어휘적 특징은 언어 간에 직접적으로 전이되기 어렵다는 점이며, 둘째, 대상 언어 고유의 문법 구조를 회복하는 것이 어렵다는 점이다. 이러한 두 가지 도전 과제를 해결하기 위해, 우리는 다중 소스 전이 파싱을 위한 새로운 표현 학습 프레임워크를 제안한다. 제안한 프레임워크는 전면적인 어휘적 특징을 활용한 다중 소스 전이 파싱을 직관적으로 가능하게 한다. 구글의 유니버설 의존성 트리뱅크(v2.0)에서 평가한 결과, 가장 우수한 모델은 어휘적 특징을 제거한 기존의 다중 소스 전이 모델 대비 평균 레이블링된 첨부 점수(averaged labeled attachment score)에서 6.53%의 절대적 개선을 달성하였다. 또한, 최근에 제안된 최신 상태의 전이 시스템보다도 크게 우수한 성능을 보였다.

다중 소스 전이 구문 분석을 위한 표현 학습 프레임워크 | 최신 연구 논문 | HyperAI초신경