11일 전

은밀한 합의 서브트리 활용한 신경망 RST 파싱 모델 개선

{Masaaki Nagata, Manabu Okumura, Hidetaka Kamigaito, Tsutomu Hirao, Naoki Kobayashi}
은밀한 합의 서브트리 활용한 신경망 RST 파싱 모델 개선
초록

이전의 담론 구조 이론(Rhetorical Structure Theory, RST) 파싱 방법의 대부분은 신경망과 같은 지도 학습 기반으로, 충분한 규모와 품질을 갖춘 주석된 코퍼스를 필요로 한다. 그러나 영어 RST 파싱의 기준 코퍼스인 RST 담론 트리뱅크(RST-DT)는 RST 트리의 주석이 비용이 많이 들기 때문에 규모가 작다. 대량의 주석된 학습 데이터 부족은 특히 관계 레이블링에서 성능 저하를 초래한다. 따라서 본 연구에서는 은색 데이터(silver data, 즉 자동 주석된 데이터)를 활용하여 신경망 기반 RST 파싱 모델의 성능을 향상시키는 방법을 제안한다. 우리는 최신 RST 파서를 이용하여 무주석 코퍼스에서 대규모 은색 데이터를 생성한다. 고품질의 은색 데이터를 확보하기 위해, 여러 RST 파서를 사용해 구축한 문서의 RST 트리들로부터 일치하는 하위 트리(subtrees)를 추출한다. 이후, 확보한 은색 데이터로 신경망 기반 RST 파서를 사전 학습(pre-train)하고, RST-DT에서 미세 조정(fine-tune)한다. 실험 결과, 제안한 방법은 핵심성(Nuclearity)과 관계(Relation)에 대해 각각 75.0과 63.2의 최고 수준의 마이크로-F1 점수를 달성하였다. 특히 관계 레이블링 점수에서 이전 최고 성능을 기록한 파서 대비 3.0점의 뚜렷한 성능 향상을 기록하였다.

은밀한 합의 서브트리 활용한 신경망 RST 파싱 모델 개선 | 최신 연구 논문 | HyperAI초신경