
摘要
本文提出了一种基于薛定谔桥(Schrödinger Bridge, SB)的生成式语音增强模型。该模型采用一种可计算的薛定谔桥来建立干净语音分布与观测到的带噪语音分布之间的数据到数据过程。模型通过数据预测损失进行训练,旨在恢复复值干净语音系数,并使用辅助时域损失来改进模型的训练效果。本文在两个不同的语音增强任务中评估了所提出的基于薛定谔桥的模型的有效性:语音去噪和语音去混响。实验结果表明,所提出的基于薛定谔桥的模型在语音质量指标和自动语音识别(ASR)性能方面优于扩散模型,例如,在去噪任务中相对于最佳基线模型实现了20%的相对词错误率降低,在去混响任务中则实现了6%的相对词错误率降低。此外,所提出的模型还展示了更高的效率,在相同采样步数下比基线模型获得更好的质量,并且计算成本更低。