ROSE: 다목적 학습을 활용한 항공교통통제 환경에서 인식 지향형 음성 증강 프레임워크

항공교통통제(ATC) 분야에서의 라디오 음성 에코는 음성 품질을 저하시키는 특정 현상으로, 이는 자동 음성 인식(ASR) 정확도에도 부정적인 영향을 미친다. 본 연구에서는 시간 영역 기반의 인식 지향 음성 강화(Recognition-Oriented Speech Enhancement, ROSE) 프레임워크를 제안하여 음성의 이해도를 향상시키고, ASR 정확도를 개선하고자 하였다. 이 프레임워크는 컨볼루션 기반 인코더-디코더 구조를 채택한 U-Net 아키텍처를 기반으로 하며, ATC 환경에서 즉시 활용 가능한 플러그 앤 플레이 도구로서 ASR 모델의 추가 재학습 없이도 효과적으로 작동한다. 구체적으로, 1) U-Net 아키텍처 내에서 주의 기반 스킵 퓨전(Attention-Based Skip-Fusion, ABSF) 모듈을 도입하여 인코더에서 공유된 특징을 주의 마스크를 통해 탐색함으로써 계층적 특징을 효과적으로 융합할 수 있도록 하였다. 2) 채널과 시퀀스 주의 기반(CSAtt) 모듈을 혁신적으로 설계하여 이중 병렬 주의 경로를 통해 정보가 풍부한 특징에 집중하도록 유도함으로써, 유용한 표현을 강화하고 간섭 노이즈를 억제하는 데 기여하였다. 3) 수작업으로 설계된 특징을 기반으로, ATC 환경에서의 인식 성능을 향상시키기 위해 ASR 지향 최적화 목표를 설계하였으며, 강건한 특징 표현을 학습하도록 유도하였다. ROSE는 SE 지향 및 ASR 지향 손실을 동시에 고려하여, 두 작업 목표 간 공유 표현을 최적화하는 다목적 학습 방식으로 구현되었다. 실험 결과, ROSE는 SE 및 ASR 모두에서 기존 최첨단 기법들을 뛰어넘는 성능을 보였으며, 제안된 각 구성 요소의 효과는 체계적인 실험을 통해 확인되었다. 또한, 제안된 방법은 공개 데이터셋에서도 원하는 성능 향상을 기대할 수 있음을 입증하였다.