17 天前

ROSE:一种面向识别的空中交通管制语音增强框架,基于多目标学习

Xincheng Yu, Dongyue Guo, Jianwei Zhang, Yi Lin
ROSE:一种面向识别的空中交通管制语音增强框架,基于多目标学习
摘要

无线电语音回声(Radio Speech Echo)是航空交通管制(ATC)领域中的一种特定现象,会降低语音质量,并进一步影响自动语音识别(ASR)系统的准确性。本文提出了一种面向时域识别的语音增强(Recognition-Oriented Speech Enhancement, ROSE)框架,基于卷积编码器-解码器结构的U-Net模型,旨在提升语音可懂度并增强ASR识别准确率。该框架可作为即插即用工具直接应用于ATC场景,无需对ASR模型进行额外微调。具体而言,本工作包含以下三方面创新:1)在U-Net架构中引入基于注意力机制的跳跃连接融合(Attention-based Skip-Fusion, ABSF)模块,利用注意力掩码从编码器中挖掘共享特征,实现对多层次特征的有效融合;2)创新设计了通道与序列注意力(Channel and Sequence Attention, CSAtt)模块,通过双并行注意力路径引导模型聚焦于具有信息量的特征,从而增强有效表征并抑制干扰噪声;3)基于人工设计的特征,构建面向ASR优化的目标函数,通过学习鲁棒的特征表示来提升在ATC环境下的识别性能。ROSE框架采用多目标学习策略,同时融合面向语音增强(SE)与面向ASR的损失函数,在共享表示层面联合优化两个任务目标。实验结果表明,ROSE在语音增强与自动语音识别两项任务上均显著优于现有最先进方法,所有提出的改进均通过对照实验得到验证。此外,该方法在公开数据集上亦能实现预期的性能提升,展现出良好的泛化能力与实用价值。