2 个月前

从原始数据中联合学习视觉和听觉语音表示

Haliassos, Alexandros ; Ma, Pingchuan ; Mira, Rodrigo ; Petridis, Stavros ; Pantic, Maja
从原始数据中联合学习视觉和听觉语音表示
摘要

我们介绍了RAVEn,一种用于联合学习视觉和听觉语音表示的自监督多模态方法。我们的预训练目标包括对遮掩输入进行编码,然后预测由缓慢演化的动量编码器生成的上下文化目标。由于视频和音频之间的固有差异,我们在设计时针对这两种模态的预文本任务采用了不对称的方式:听觉流同时预测视觉和听觉目标,而视觉流仅预测听觉目标。在单一预训练阶段中,当对由此产生的视觉和听觉编码器进行微调时,无论是在低资源还是高资源标记数据设置下,我们都观察到了强大的结果,在这一阶段中编码器是联合训练的。值得注意的是,RAVEn在LRS3上的视觉语音识别(VSR)任务中超越了所有自监督方法,并且结合自训练仅使用30小时的标记数据就能超过最近的一种半监督方法,后者是在90,000小时非公开数据上训练的。与此同时,我们在LRS3低资源设置下的听觉语音识别任务(以及VSR任务)中也达到了最先进的水平。我们的研究结果表明,完全从原始视频和音频中学习强大的语音表示是可行的,即无需依赖手工特征。代码和模型可在https://github.com/ahaliassos/raven获取。