16 天前

多模态开放域对话

Kurt Shuster, Eric Michael Smith, Da Ju, Jason Weston
多模态开放域对话
摘要

近期在开放域对话代理领域的研究已表明,通过大幅增加预训练数据规模和模型参数量,可在模型的互动性与类人程度等指标上实现显著提升(Adiwardana 等,2020;Roller 等,2020)。然而,若要构建具备类人能力的智能代理,我们必须突破仅处理文本的局限,拓展至多模态能力。其中尤为关键的是,使代理具备视觉感知能力,并能够基于所见内容进行交流。为实现与人类开展多模态对话的目标,本文研究将当前最先进的开放域对话模型组件与最先进的视觉模型组件进行融合。我们系统地探索了多种图像融合策略,以及领域自适应的预训练与微调方法,结果表明,我们所构建的最佳模型在多模态对话任务中显著优于现有强基线模型,同时在纯文本对话任务中仍能保持与先前的 BlenderBot(Roller 等,2020)相当的性能表现。此外,我们在最终模型中进一步引入并整合了安全机制,实验结果表明,这些安全措施并未对模型的互动性等关键指标造成负面影响。