7 天前

MConv:跨多领域的多模态对话搜索环境

{Tat-Seng Chua, Minlie Huang, Zheng Zhang, Le Hong Long, Lizi Liao}
摘要

尽管对话式搜索已成为对话研究与信息检索(IR)领域的重要热点,但其真正突破仍受限于现有数据集的规模与质量。为解决这一根本性瓶颈,我们提出了多模态多领域对话数据集(Multimodal Multi-domain Conversational dataset, MMConv),这是一个涵盖多个领域与任务的、由人类扮演角色进行对话的全标注语料库。本工作的贡献主要体现在两个方面。首先,与以往仅关注用户与智能体之间任务导向的多模态对话不同,MMConv中的对话不仅包含完整的对话信念状态(dialogue belief states)与对话行为(dialogue acts)标注,更构建了一个相对全面的、贴近真实用户场景的多模态对话搜索环境。该环境集成了结构化场馆数据库、标注图像资源库以及众包知识库,为多模态对话搜索研究提供了坚实的数据基础。本文详细描述了数据采集流程,并对数据结构进行了系统性总结与分析。其次,我们报告了多项基准实验结果,涵盖对话状态追踪、对话推荐、响应生成等任务,并提出一个统一的多任务模型以支持多种下游任务。针对各项任务,我们分别采用当前最先进的方法进行实验,以验证该数据集的可用性,深入讨论现有方法的局限性,并为未来研究建立可比较的基准线。

MConv:跨多领域的多模态对话搜索环境 | 最新论文 | HyperAI超神经