16일 전

ViGGO: 오픈 도메인 대화에서 데이터에서 텍스트 생성을 위한 비디오 게임 코퍼스

Juraj Juraska, Kevin K. Bowden, Marilyn Walker
ViGGO: 오픈 도메인 대화에서 데이터에서 텍스트 생성을 위한 비디오 게임 코퍼스
초록

자연어 생성(NLG) 분야에서 딥러닝의 도입은 신경망 모델 학습을 위한 소규모 및 상대적으로 대규모 병렬 코퍼스의 출현을 이끌었다. 그러나 기존의 데이터 기반 텍스트 생성 데이터셋은 주로 작업 지향 대화 시스템을 대상으로 하며, 다양성과 유연성 측면에서 제한이 있다. 이러한 데이터셋은 일반적으로 커뮤니티 기반으로 수집되며, 그 과정에서 많은 노이즈가 그대로 남아 있다. 게다가 현재의 신경망 기반 NLG 모델들은 대규모 학습 데이터를 충분히 활용하지 못하고, 강한 일반화 성질로 인해 어떤 경우에도 템플릿과 유사한 문장을 생성하는 경향이 있다. 따라서 본 연구에서는 (1) 커뮤니티 기반 수집임에도 불구하고 청소된 품질의 데이터를 제공하며, (2) 9종의 일반화 가능하고 대화적 대화 행위(dialogue act) 유형을 포함하여 오픈 도메인 대화 시스템에 더 적합하도록 구성된, 총 7,000개 샘플로 구성된 새로운 코퍼스를 제안한다. 또한, (3) 대화 시스템 분야에서는 아직 미개척된 영역이지만 풍부한 대화를 지원할 수 있는 잠재력을 지닌 비디오 게임을 새로운 도메인으로 탐색함으로써, 기존 연구의 한계를 극복하고자 한다.