2달 전
복잡도 가중 손실과 다양한 재순위 결정을 이용한 문장 단순화
Reno Kriz; João Sedoc; Marianna Apidianaki; Carolina Zheng; Gaurav Kumar; Eleni Miltsakaki; Chris Callison-Burch

초록
문장 단순화는 텍스트를 더 쉽게 이해할 수 있도록 다시 작성하는 작업입니다. 최근 연구에서는 이 작업에 시퀀스-투-시퀀스(Seq2Seq) 모델을 적용하여, 강화 학습과 메모리 증강을 통해 주로 훈련 시간의 개선에 초점을 맞추었습니다. 일반적인 Seq2Seq 모델을 단순화에 적용할 때 발생하는 주요 문제 중 하나는 이러한 모델이 원문에서 직접 복사하는 경향이 있어, 출력된 문장이 상대적으로 길고 복잡해진다는 점입니다. 우리는 이 문제를 두 가지 주요 기술을 사용하여 완화하고자 합니다. 첫째, 레벨별 단어 복잡도 모델을 통해 예측된 내용 단어의 복잡도를 훈련 과정에서 손실 함수에 통합합니다. 둘째, 테스트 시 다양한 후보 단순화 문장을 대량으로 생성한 후, 유창성, 적절성 및 단순성을 촉진하기 위해 재평가합니다. 여기서 우리는 새로운 문장 복잡도 모델을 통해 단순성을 측정합니다. 이러한 확장은 우리의 모델이 최신 시스템들과 경쟁력을 갖추면서도 더 간단한 문장을 생성할 수 있게 해줍니다. 우리는 표준 자동 평가 지표와 인간 평가 지표를 보고합니다.