13 天前
和谐性在基于DNN的单耳语音分离系统与生物启发式单耳语音分离系统中均起着关键作用
Rahil Parikh, Ilya Kavalerov, Carol Espy-Wilson, Shihab Shamma

摘要
深度学习的最新进展显著提升了语音分离模型的性能。尽管这些模型在实际应用中表现出色且适用范围不断扩展,但针对其网络所学习到的语音分离底层机制的研究仍十分有限。本文针对两种先进的基于深度神经网络(DNN)的语音分离模型——Conv-TasNet与DPT-Net,系统分析了谐波性(harmonicity)在其中的作用。我们通过对比自然语音混合与轻微失谐语音混合的分离效果进行评估,其中失谐语音的谐波成分被施加了微小的频率抖动(jitter)。结果表明,当任一语音源出现轻微谐波抖动时,模型性能显著下降:例如,仅3%的不可察觉谐波抖动即导致Conv-TasNet的分离信噪比从15.4 dB急剧下降至0.70 dB。此外,即使在失谐语音上对模型进行训练,也无法缓解其对谐波性的敏感性,反而导致模型在自然语音混合上的表现进一步恶化。这表明,失谐性(inharmonicity)已成为DNN模型中一种强有力的对抗性因素。进一步分析还发现,DNN算法的行为与依赖时间线索而非谐波结构的生物启发式语音分离机制存在显著差异,凸显了当前深度学习模型在模拟人类听觉系统方面仍存在根本性差距。