2 个月前

AERO:频谱域音频超分辨率

Mandel, Moshe ; Tal, Or ; Adi, Yossi
AERO:频谱域音频超分辨率
摘要

我们介绍了AERO,一种在频谱域处理语音和音乐信号的音频超分辨率模型。AERO基于编码器-解码器架构,并采用了类似U-Net的跳跃连接。我们在时间域和频率域损失函数的共同作用下优化了该模型。具体而言,我们考虑了一组重建损失以及感知损失,后者包括对抗损失函数和特征判别损失函数。为了更好地处理相位信息,所提出的方法使用两个独立的通道对复数值谱图进行操作。与以往主要关注低频和高频拼接的音频超分辨率方法不同,本方法直接预测整个频率范围。我们在考虑语音和音乐的不同采样率范围内展示了高性能表现。AERO在Log-Spectral Distance(对数谱距离)、ViSQOL(视觉语音质量客观评估)和主观MUSHRA测试中均优于评估的基线模型。音频样本和代码可在以下网址获取:https://pages.cs.huji.ac.il/adiyoss-lab/aero