2달 전

CHiME-4 챌린지와 음성 향상 베이스라인 설정을 사용한 최신 원격 음성 인식 구축

Szu-Jui Chen; Aswin Shanmugam Subramanian; Hainan Xu; Shinji Watanabe
CHiME-4 챌린지와 음성 향상 베이스라인 설정을 사용한 최신 원격 음성 인식 구축
초록

본 논문은 CHiME-4 챌린지에서 자동 음성 인식(ASR)의 새로운 베이스라인 시스템을 소개하며, 이는 1) 챌린지에서 복잡한 최상위 시스템과 비교할 수 있는 단순화된 최신 기술 시스템, 2) Kaldi 음성 인식 툴킷의 주요 저장소를 통해 공개되고 재현 가능한 레시피를 제공하여 노이즈 환경에서의 ASR 개발을 촉진하는 것을 목표로 합니다. 제안된 시스템은 양방향 장단기 기억(LSTM) 마스크 추정을 사용한 일반화된 고유값 빔포밍을 채택합니다. 또한, 빔포밍 후에 증강된 6개의 마이크와 강화 데이터를 사용하여 격자 없는 최대 상호 정보(LF-MMI)로 훈련된 시간 지연 신경망(TDNN)을 제안합니다. 마지막으로, LSTM 언어 모델을 사용하여 격자와 n-베스트 재점수 평가를 수행합니다. 최종 시스템은 6채널 트랙의 실제 테스트 세트에서 2.74%의 단어 오류율(WER)을 달성하여 챌린지에서 2등에 해당하는 성능을 보였습니다. 또한, 제안된 베이스라인 레시피는 시뮬레이션 테스트 세트를 위한 네 가지 다른 음성 향상 조치, 단시간 객체 지능성 측정(STOI), 확장 STOI(eSTOI), 음질의 감각적 평가(PESQ), 그리고 음성 왜곡 비율(SDR)을 포함하고 있습니다. 따라서, 이 레시피는 이러한 성능 측정 지표들을 활용한 음성 향상 연구를 위한 실험 플랫폼도 제공합니다.

CHiME-4 챌린지와 음성 향상 베이스라인 설정을 사용한 최신 원격 음성 인식 구축 | 최신 연구 논문 | HyperAI초신경