11일 전
복잡한-간단한 텍스트 쌍에 대한 명시적 레이블링으로부터 단순화 방법 학습하기
{Carolina Scarton, o, Fern Alva-Manchego, Lucia Specia, Joachim Bingel, Gustavo Paetzold}

초록
현재 텍스트 단순화에 관한 연구는 두 가지 핵심적인 문제에 의해 제약을 받고 있다. 첫째, 고품질의 평행 단순화 데이터가 극히 부족하다는 점이며, 둘째, 기존 데이터에 단순화 작업(예: 삭제 또는 대체)에 대한 명시적 어노테이션이 부족하다는 점이다. 최근에 소개된 Newsela 코퍼스가 첫 번째 문제를 완화시켰지만, 여전히 단순화 작업은 텍스트 간의 평행 데이터로부터 블랙박스 형태의 엔드투엔드(end-to-end) 접근 방식을 통해 직접 학습해야 한다. 이러한 복잡한 문장과 단순한 문장의 평행 쌍은 서로 매우 큰 차이를 보이기 때문에 일반화가 어려운 경우가 많다. 또한 엔드투엔드 모델은 데이터로부터 실제로 무엇이 학습되었는지 해석하기 어렵게 만든다. 본 연구에서는 텍스트 단순화(TS) 작업을 그 하위 문제들로 분해하는 방법을 제안한다. 우리는 평행 코퍼스 내에서 단순화 작업을 자동으로 식별할 수 있는 방법을 개발하고, 이러한 어노테이션을 기반으로 시퀀스 레이블링 기반의 접근 방식을 제안한다. 마지막으로, 다양한 접근 방식이 어떤 종류의 변환을 모델링할 수 있는지에 대한 통찰을 제공한다.