텍스트를 가지고 있으면서도 그 사용을 놓치지 마라! 의미 충실성을 갖춘 엔드투엔드 신경망 데이터-텍스트 생성

최근 엔드투엔드 신경망 데이터-텍스트(D2T) 생성 기술이 파이프라인 기반 아키텍처의 대안으로 부상하고 있으나, 새로운 도메인으로의 일반화 능력과 의미 일관성 있는 텍스트 생성 측면에서 여전히 도전 과제를 안고 있다. 본 연구에서는 데이터 표현이나 대상 도메인에 대해 최소한의 가정을 두는 엔드투엔드 신경망 기반 데이터-텍스트 생성 시스템인 DataTuner을 제안한다. 우리는 두 단계의 생성-재정렬(generation-reranking) 접근법을 채택하였으며, 미세조정된 언어 모델과 의미 충실도 분류기(semantic fidelity classifier)를 결합하였다. 본 연구의 각 구성 요소는 데이터셋에 특화된 휴리스틱 기법, 엔티티 비특수화(delexicalization), 또는 후처리 과정 없이 엔드투엔드로 학습된다. 실험 결과, DataTuner은 LDC2017T10, WebNLG, ViGGO, Cleaned E2E 등 네 가지 주요 D2T 데이터셋에서 자동 평가 지표 기준으로 최고 성능을 달성하였으며, 인간 평가자들이 평가한 유창성은 인간이 작성한 기준 텍스트와 거의 동일하거나 이를 초월하는 수준에 이르렀다. 또한 DataTuner 내부의 모델 기반 의미 충실도 평가기(made-based semantic fidelity scorer)가 전통적인 휴리스틱 기반 평가 방법보다 더 우수한 평가 도구임을 입증하였다. 모든 네 가지 데이터셋에서 기존 최고 성능 모델보다 의미 충실도가 현저히 뛰어난 텍스트를 생성함을 확인하였다.