6 个月前

摘要

我们提出了一种名为ES3的新型自监督学习策略，用于从无标注的说话人脸视频中学习鲁棒的音视频语音表征。尽管近期许多方法主要依赖音频模态单独引导学习过程，以捕捉音频与视频之间的共享信息，但我们重新定义了该问题，旨在获取共享信息、模态特有信息（即各模态独有的语音信息）以及协同信息（synergistic information），从而解决音视频模态之间固有的不对称性问题。基于这一新范式，我们提出了一种新颖的“渐进式”（evolving）学习策略，逐步构建在单模态（音频与视觉）和双模态（音视频融合）语音任务上均表现优异的联合音视频语音表征。首先，利用相对更易学习的音频模态，通过捕获音频特有信息与共享语音信息，初始化音频与视觉表征；其次，引入视觉模态特有的语音信息，并在此前获得的共享知识基础上，对音视频联合表征进行自举（bootstrap）优化；最后，最大化包含协同信息在内的总音视频语音信息量，从而获得鲁棒且全面的表征。我们将ES3实现为一种简洁的Siamese网络框架。在英文基准数据集及新发布的大型中文语音数据集上的实验结果验证了该方法的有效性。特别地，在LRS2-BBC数据集上，我们最小的模型在仅使用1/2参数量和1/8未标注数据（223小时）的情况下，性能已达到当前最先进（SoTA）模型的水平。

源 PDF