
초록
최근 신경망 모델들은 공명 해결(coreference resolution) 작업에서 크게 발전을 이뤘다. 그러나 현재의 신경망 공명 모델들은 일반적으로 국소적 결정들의 시퀀스를 기반으로 계산되는 히우리스틱 손실 함수를 사용해 학습된다. 본 논문에서는 공명 평가 지표를 직접 최적화할 수 있도록 엔드 투 엔드 강화 학습 기반의 공명 해결 모델을 제안한다. 구체적으로, Lee 등(2018)의 최신 고차원 언급 순위 매기기(mention ranking) 방법을 공명 링킹 행동 시퀀스에 해당하는 보상(reward)을 통합함으로써 강화 학습 정책 그래디언트(policy gradient) 모델로 개조하였다. 또한, 모델이 나쁜 국소 최적해로 조기 수렴하는 것을 방지하기 위해 적절한 탐색을 보장하기 위해 최대 엔트로피 정규화(maximum entropy regularization)를 도입하였다. 제안하는 모델은 영어 OntoNotes v5.0 벤치마크에서 새로운 최고 성능을 달성하였다.