HyperAIHyperAI

Command Palette

Search for a command to run...

SpeechBERT:一种用于端到端语音问答的音频与文本联合学习语言模型

Yung-Sung Chuang Chi-Liang Liu Hung-Yi Lee Lin-shan Lee

摘要

尽管近年来已有多种端到端的语音语言理解模型被提出,但本文可能是首次尝试应对极具挑战性的端到端语音问答(Spoken Question Answering, SQA)任务。受在多种文本处理任务中表现卓越的BERT模型启发,本文提出了一种音频与文本联合学习的SpeechBERT模型。该模型在包含语音识别(ASR)错误的答题片段的数据集上,优于传统的级联式方法(即先进行ASR,再接文本问答TQA模型),原因在于端到端模型能够在ASR产生错误之前,直接从音频数据中提取有效信息。进一步地,将所提出的端到端模型与级联架构进行集成,取得了更优的性能表现。除了在端到端SQA任务中的潜力外,SpeechBERT还可类比BERT在多种文本处理任务中的应用,广泛适用于其他语音语言理解任务。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供