
초록
편집 기반 접근법은 최근 다수의 단일 언어 시퀀스 변환 작업에서 희망적인 결과를 보여주고 있다. 전통적인 시퀀스-투-시퀀스(Seq2Seq) 모델이 병렬 문장 데이터셋을 기반으로 텍스트를 처음부터 생성하도록 학습하는 반면, 이러한 방법들은 강력한 사전 훈련된 언어 모델을 활용하면서 빠르고 정확한 변환을 학습할 수 있다는 점에서 훨씬 더 효과적임이 입증되었다. 이러한 아이디어에 영감을 받아, 사전 훈련된 Transformer 기반 인코더를 활용하는 간단하고 효율적인 텍스트 단순화 시스템인 TST(Text Simplification via Tagging)를 제안한다. 본 시스템은 기존 시스템에 간단한 데이터 증강 및 훈련·추론 단계에서의 미세 조정을 적용함으로써, 대규모 병렬 훈련 데이터에 크게 의존하지 않으며, 출력에 대한 더 큰 제어력을 제공하고, 추론 속도를 향상시킨다. 최적의 모델은 텍스트 단순화 작업을 위한 벤치마크 테스트 데이터셋에서 거의 최첨단 성능을 달성한다. 비자율적(non-autoregressive) 구조를 완전히 채택함에 따라, 현재 최고 수준의 텍스트 단순화 시스템보다 추론 속도가 11배 이상 빠르다.