2 个月前

统一语音识别:单一模型处理听觉、视觉及视听觉输入

Haliassos, Alexandros ; Mira, Rodrigo ; Chen, Honglie ; Landgraf, Zoe ; Petridis, Stavros ; Pantic, Maja
统一语音识别:单一模型处理听觉、视觉及视听觉输入
摘要

在听觉、视觉和视听语音识别(分别简称ASR、VSR和AVSR)领域的研究传统上是独立进行的。即使最近的一些自监督研究尝试同时解决两个或所有三个任务,通常也会产生独立的模型,导致推理管道分离,增加了内存需求并产生了冗余。本文提出了一种统一的训练策略来整合这些系统。我们证明了为所有三个任务训练单个模型可以提升VSR和AVSR的性能,克服从零开始训练时常见的优化难题。此外,我们引入了一种贪婪伪标签方法,以更有效地利用未标记样本,解决了相关自监督方法中的不足。最后,我们在框架内开发了一种自监督预训练方法,并证明了其在半监督方法中的有效性。尽管使用单个模型处理所有任务,我们的统一方法在LRS3和LRS2数据集上的ASR、VSR和AVSR任务以及新发布的WildVSR数据集上均达到了与近期方法相当的最先进性能。代码和模型可在https://github.com/ahaliassos/usr获取。