
초록
표 형식으로 정리된 구조화된 데이터에서 설명을 생성하는 방법은 무엇인가? 기존의 신경망 인코더-디코더 모델을 사용하는 접근 방식은 종종 다양성 부족 문제를 겪는다. 우리는 다양한 표현 구조를 풍부하게 하고 다양한 생성을 실현하기 위해 개방형 템플릿(open set of templates)이 필수적이라고 주장한다. 그러나 이러한 템플릿을 학습하는 것은 일반적으로 대량의 쌍(표, 설명) 데이터 코퍼스가 필요하기 때문에 비용이 크며, 실제로는 흔히 얻기 어려운 실정이다. 본 논문은 쌍화된 데이터와 비쌍화된 데이터로부터 자동으로 재사용 가능한 ‘템플릿’을 학습하는 문제를 탐구한다. 우리는 데이터 테이블에서 텍스트 설명을 생성하기 위한 새로운 방법인 변분 템플릿 머신(Variational Template Machine, VTM)을 제안한다. 본 연구의 기여점은 다음과 같다. a) 잠재 공간에서 텍스트 템플릿과 의미적 내용 정보를 명시적으로 분리할 수 있도록 특별히 설계된 모델 아키텍처와 손실 함수를 제안한다. b) 짧은 병렬 데이터와 정렬된 표 없이도 사용 가능한 대량의 원시 텍스트 데이터를 활용하여 템플릿 학습을 풍부하게 한다. 다양한 도메인에서 수집한 데이터셋에 대한 실험 결과, VTM은 우수한 유창성과 품질을 유지하면서도 더 풍부한 다양성을 갖춘 설명을 생성할 수 있음을 입증하였다.