11일 전

전체 대명사 해소를 위한 클러스터 순위 모델

Juntao Yu, Alexandra Uma, Massimo Poesio
전체 대명사 해소를 위한 클러스터 순위 모델
초록

CONLL 2012 데이터셋을 대상으로 설계된 애나포라 해결(코어퍼런스) 시스템은 일반적으로 싱글턴(singleton)의 식별이나 특정 유형의 비지칭 표현(예: 여유 표현, expletives)의 식별과 같은 전반적인 애나포라 해결 작업의 핵심 요소를 처리할 수 없다. 이는 해당 코퍼스에 이러한 요소들이 주석화되어 있지 않기 때문이다. 그러나 최근에 공개된 CRAC 2018 공동 과제용 데이터셋은 이러한 목적을 위해 활용할 수 있게 되었다. 본 논문에서는 비지칭 표현(여유 표현, 예측적 표현(predicative s) 및 기타 유형 포함)을 동시에 식별하고, 싱글턴을 포함한 코어퍼런스 체인을 구축하는 아키텍처를 제안한다. 본 연구의 클러스터 순위 시스템은 주어진 클러스터 내의 언급들 간의 상대적 중요도를 판단하기 위해 어텐션 메커니즘을 사용한다. 추가적으로, 싱글턴과 비지칭 마크러블(markables)을 식별하기 위한 분류기들을 도입한다. 본 연구의 기여는 다음과 같다. 첫째, 우리는 시스템이 생성한 언급을 사용하여 CRAC 데이터셋에 대해 처음으로 결과를 보고한다. 이 결과는 금속 언급(gold mentions)을 사용한 공동 과제 기준 시스템보다 5.8% 높은 성능을 기록하였다. 둘째, 싱글턴 클러스터와 비지칭 표현의 존재가 비싱글턴 클러스터의 성능 향상에도 크게 기여함을 실험적으로 입증하였다. 셋째, 본 모델이 CONLL 데이터셋을 위해 특별히 설계되지 않았음에도 불구하고, Kantor 및 Globerson(2019)이 제안한 최신 상태(SOTA) 시스템과 동등한 성능을 달성함을 보였다.

전체 대명사 해소를 위한 클러스터 순위 모델 | 최신 연구 논문 | HyperAI초신경