
초록
구성 구문 분석(Constituency parsing)은 자연어 이해의 핵심적이고 중요한 과제이며, 맥락 정보의 효과적인 표현이 이 과제에 도움을 줄 수 있다. 전통적으로 맥락 정보의 특징으로 사용되는 N-gram은 다양한 작업에서 유용함이 입증되었으며, 적절히 모델링된다면 구성 구문 분석에도 기여할 수 있다. 본 논문에서는 신경망 기반의 차트 기반 구성 구문 분석에서 N-gram 정보를 활용하기 위해 '스팬 주의(span attention)'를 제안한다. 현재 Transformer 기반 인코더를 사용하는 차트 기반 분석기는 스팬의 표현을 스팬 경계에 해당하는 은닉 상태의 차분으로 나타내고 있는데, 특히 긴 스팬의 경우 정보 손실이 발생할 수 있다. 이를 보완하기 위해, 각 N-gram이 분석 과정에 기여하는 정도에 따라 가중치를 부여함으로써 N-gram 정보를 스팬 표현에 통합한다. 더 나아가, 서로 다른 길이 범주 내의 N-gram에 대해 가중치를 부여하는 '범주형 스팬 주의(categorical span attention)'를 제안하여, 긴 문장의 분석 성능을 더욱 향상시킨다. 세 가지 널리 사용되는 벤치마크 데이터셋에서의 실험 결과는 제안한 방법이 아랍어, 중국어, 영어 모두에서 효과적임을 입증하며, 각 언어에서 최신 기술 수준(SOTA)의 성능을 달성하였다.