11 天前

ViGGO:面向开放域对话中数据到文本生成的视频游戏语料库

Juraj Juraska, Kevin K. Bowden, Marilyn Walker
ViGGO:面向开放域对话中数据到文本生成的视频游戏语料库
摘要

深度学习在自然语言生成(NLG)领域的广泛应用,推动了小型及相对较大的平行语料库的发布,用于训练神经网络模型。然而,现有的数据到文本语料库主要面向任务导向型对话系统,因而通常在多样性与通用性方面存在局限。这些语料库多为众包获取,且往往包含大量噪声。此外,当前的神经NLG模型未能充分挖掘大规模训练数据的潜力,由于其强大的泛化能力,生成的句子往往呈现出模板化特征。为此,我们提出一个包含7,000个样本的新语料库,该语料库具备以下特点:(1)尽管采用众包方式收集,但仍保持较高的数据纯净度;(2)涵盖9种可泛化且具有对话性质的对话行为类型,使其更适用于开放域对话系统;(3)首次将视频游戏领域引入对话系统研究,该领域虽尚未被广泛探索,但具备支持丰富对话的显著潜力。

ViGGO:面向开放域对话中数据到文本生成的视频游戏语料库 | 最新论文 | HyperAI超神经