17 天前

HuBERT：通过隐藏单元的掩码预测实现的自监督语音表示学习

Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed

摘要

自监督语音表征学习方法面临三个独特挑战：（1）每个输入语音片段中包含多个音段单位；（2）在预训练阶段缺乏输入音段单位的词典；（3）音段单位长度可变，且未显式进行分割。为应对上述三大问题，我们提出了一种名为隐单元BERT（Hidden-Unit BERT, HuBERT）的自监督语音表征学习方法。该方法通过一个离线聚类步骤，为类似BERT的预测损失提供对齐的目标标签。本方法的关键在于，仅在被掩码的区域上应用预测损失，从而迫使模型在连续输入上学习融合声学与语言建模能力的联合表征。HuBERT主要依赖于无监督聚类步骤的一致性，而非聚类标签本身的内在质量。以100个聚类的简单k-means教师模型为起点，并经过两次聚类迭代，HuBERT在Librispeech（960小时）和Libri-light（60,000小时）基准测试中，无论使用10分钟、1小时、10小时、100小时或960小时的微调数据子集，均达到或超越了当前最先进的wav2vec 2.0模型性能。采用参数量达10亿的模型时，HuBERT在更具挑战性的dev-other和test-other评估子集上，分别实现了最高达19%和13%的相对词错误率（WER）降低。