17 天前

端到端语音对话问答:任务、数据集与模型

Chenyu You, Nuo Chen, Fenglin Liu, Shen Ge, Xian Wu, Yuexian Zou
端到端语音对话问答:任务、数据集与模型
摘要

在口语问答任务中,系统通常被设计为从相关语音转录文本的连续文本片段中回答问题。然而,人类获取或检验知识最自然的方式是通过人际对话。因此,我们提出了一项新的任务——口语对话问答(Spoken Conversational Question Answering, SCQA),旨在使系统能够基于语音文档建模复杂的对话流程。在该任务中,我们的核心目标是构建能够基于音频记录处理对话式问题的系统,并探索在信息获取过程中,通过多模态融合为系统提供更丰富线索的可行性。为此,我们并未直接采用噪声较大的自动语音识别(ASR)转录文本,而是提出一种新颖的统一数据蒸馏方法——DDNet。该方法能够有效融合跨模态信息,实现对语音与语言模态的细粒度表征。此外,我们引入了一种简单而创新的机制——双注意力机制(Dual Attention),通过增强音频与文本之间的对齐效果,从而降低知识迁移过程中的难度。为评估SCQA系统在对话式交互中的表现能力,我们构建了一个名为Spoken-CoQA的口语对话问答数据集,包含来自4000段对话的超过4万组问答对。实验结果表明,现有最先进方法在该数据集上的性能显著下降,充分证明了跨模态信息融合的必要性。我们的实验结果进一步验证,所提出的模型在口语对话问答任务中取得了更优的性能。