17 天前
SpeechBERT:一种用于端到端语音问答的音频与文本联合学习语言模型
Yung-Sung Chuang, Chi-Liang Liu, Hung-Yi Lee, Lin-shan Lee

摘要
尽管近年来已有多种端到端的语音语言理解模型被提出,但本文可能是首次尝试应对极具挑战性的端到端语音问答(Spoken Question Answering, SQA)任务。受在多种文本处理任务中表现卓越的BERT模型启发,本文提出了一种音频与文本联合学习的SpeechBERT模型。该模型在包含语音识别(ASR)错误的答题片段的数据集上,优于传统的级联式方法(即先进行ASR,再接文本问答TQA模型),原因在于端到端模型能够在ASR产生错误之前,直接从音频数据中提取有效信息。进一步地,将所提出的端到端模型与级联架构进行集成,取得了更优的性能表现。除了在端到端SQA任务中的潜力外,SpeechBERT还可类比BERT在多种文本处理任务中的应用,广泛适用于其他语音语言理解任务。