2 个月前
从多个自监督任务中学习与问题无关的语音表示
Santiago Pascual; Mirco Ravanelli; Joan Serrà; Antonio Bonafonte; Yoshua Bengio

摘要
在机器学习中,无监督学习良好的表示仍然是一个开放问题,尤其是对于语音信号而言,这类信号通常具有复杂的层次结构和较长的序列,使得这一任务更具挑战性。然而,一些最近的研究表明,通过采用自监督编码器-判别器方法可以提取有用的语音表示。本文提出了一种改进的自监督方法,其中单个神经编码器后面连接多个工作模块(workers),这些工作模块共同解决不同的自监督任务。不同任务之间的共识自然地对编码器施加了有意义的约束,有助于发现普遍适用的表示并减少学习浅层特征的风险。实验结果表明,所提出的这种方法能够学习到可迁移、鲁棒且与具体问题无关的特征,这些特征携带了来自语音信号的相关信息,如说话人身份、音素乃至更高层次的情感线索。此外,若干设计选择使得该编码器易于导出,便于其直接应用于或适应于不同的问题。