2 个月前
MMDialog:面向多模态开放域对话的大规模多轮对话数据集
Jiazhan Feng; Qingfeng Sun; Can Xu; Pu Zhao; Yaming Yang; Chongyang Tao; Dongyan Zhao; Qingwei Lin

摘要
响应多模态内容被认为是智能对话代理的一项基本能力。在本文中,我们介绍了MMDialog数据集,以更好地促进多模态对话的发展。MMDialog由108万条真实世界的对话组成,涵盖了4,184个主题的153万张独特图像。该数据集具有两个主要且独特的优点:首先,其对话数量是现有最大多模态对话数据集的88倍;其次,它包含大量主题,有助于实现开放领域的泛化。为了利用这一数据集构建引人入胜的对话系统,我们提出了两种基于检索和生成场景的响应生成任务,并对其进行了规范化。此外,我们使用当前最先进的技术构建了这两个任务的基线模型,并报告了它们的实验性能。我们还提出了一种新的评估指标——MM-相关性(MM-Relevance),用于衡量多模态响应的质量。我们的数据集和脚本可在https://github.com/victorsungo/MMDialog 获取。