
摘要
本文介绍了Ubuntu对话语料库,该数据集包含近100万个多轮对话,总共有超过700万条发言和1亿个词汇。这一资源为基于神经语言模型构建对话管理器的研究提供了独特支持,这些模型可以利用大量未标注的数据。该数据集不仅具备了对话状态跟踪挑战数据集中对话的多轮特性,还具有类似Twitter等微博服务中互动的非结构化性质。我们还描述了两种适用于分析此数据集的神经学习架构,并提供了在选择最佳下一轮回应任务上的基准性能结果。
本文介绍了Ubuntu对话语料库,该数据集包含近100万个多轮对话,总共有超过700万条发言和1亿个词汇。这一资源为基于神经语言模型构建对话管理器的研究提供了独特支持,这些模型可以利用大量未标注的数据。该数据集不仅具备了对话状态跟踪挑战数据集中对话的多轮特性,还具有类似Twitter等微博服务中互动的非结构化性质。我们还描述了两种适用于分析此数据集的神经学习架构,并提供了在选择最佳下一轮回应任务上的基准性能结果。