17 天前
MMSpeech:面向语音识别的多模态多任务编码器-解码器预训练
Xiaohuan Zhou, Jiaming Wang, Zeyu Cui, Shiliang Zhang, Zhijie Yan, Jingren Zhou, Chang Zhou

摘要
本文提出了一种面向普通话自动语音识别(ASR)的新型多模态多任务编码器-解码器预训练框架(MMSpeech),该框架同时利用未标注的语音与文本数据进行训练。语音与文本联合预训练的主要挑战在于两种模态之间存在显著差异,尤其是在普通话语音与文本之间更为突出。与采用字母文字系统的英语等语言不同,普通话采用表意文字系统,汉字与发音之间并无紧密的对应关系。为此,我们提出在预训练过程中引入音素模态,以帮助捕捉普通话语音与文本之间的模态不变特征。具体而言,我们设计了一个包含五项自监督与监督任务的多任务学习框架,利用语音与文本数据进行联合训练。在端到端预训练阶段,我们引入了两项自监督任务:语音到伪码(Speech-to-Pseudo-codes, S2C)任务和音素到文本(Phoneme-to-Text, P2T)任务,分别利用未标注的语音与文本数据,其中语音-伪码对和音素-文本对作为对监督语音-文本对的有效补充。为进一步提升编码器对语音表示的学习能力,我们还引入了自监督的掩码语音预测(Masked Speech Prediction, MSP)任务和监督的音素预测(Phoneme Prediction, PP)任务,以实现从语音到音素的有效映射。此外,我们直接将下游的监督语音到文本(Speech-to-Text, S2T)任务融入预训练过程,该策略不仅进一步提升了预训练性能,甚至在无需微调的情况下即可取得更优的识别效果。在AISHELL-1数据集上的实验结果表明,所提方法取得了当前最优的性能,相较于其他预训练方法,相对提升超过40%。