11일 전
텍스트 간소화에서 문장 정렬을 위한 신경 CRF 모델
Chao Jiang, Mounica Maddela, Wuwei Lan, Yang Zhong, Wei Xu

초록
텍스트 단순화 시스템의 성공은 훈련 코퍼스에 포함된 복잡한 문장과 단순한 문장 쌍의 품질과 양에 크게 의존하며, 이러한 쌍들은 평행 기사 간 문장 간의 정렬을 통해 추출된다. 문장 정렬 품질을 평가하고 개선하기 위해, 일반적으로 사용되는 텍스트 단순화 코퍼스인 Newsela와 위키백과에서 두 개의 수동으로 주석이 달린 문장 정렬 데이터셋을 구축하였다. 본 연구에서는 병렬 문서 내 문장의 순차적 특성을 활용하는 동시에 신경망 기반 문장 쌍 모델을 통해 의미적 유사성을 포착할 수 있는 새로운 신경망 CRF 정렬 모델을 제안한다. 실험 결과, 제안하는 방법은 단일 언어 문장 정렬 작업에서 기존의 모든 방법보다 F1 점수에서 5점 이상 우수함을 입증하였다. 본 연구의 CRF 정렬기를 활용하여 기존 데이터셋보다 훨씬 크고 품질이 뛰어난 두 개의 새로운 텍스트 단순화 데이터셋인 Newsela-Auto와 Wiki-Auto를 구축하였다. 본 연구에서 생성한 데이터셋을 기반으로 훈련된 Transformer 기반 seq2seq 모델은 자동 평가와 인간 평가 모두에서 텍스트 단순화 분야의 새로운 최고 성능을 달성하였다.