2달 전

방향 인식 기반 신경망 음성 향상 및 인식의 공동 적응 연구: 실제 다인 대화 환경에서의 적용

Yicheng Du; Aditya Arie Nugraha; Kouhei Sekiguchi; Yoshiaki Bando; Mathieu Fontaine; Kazuyoshi Yoshii
방향 인식 기반 신경망 음성 향상 및 인식의 공동 적응 연구: 실제 다인 대화 환경에서의 적용
초록

본 논문은 실제 다중 참여자 대화 환경에서 언어적 의사소통을 돕기 위한 증강현실 헤드셋의 잡음 있는 음성 인식에 대해 설명합니다. 시뮬레이션 환경에서는 감독 학습 방식으로 훈련된 딥 뉴럴 네트워크(DNN)를 기반으로 음성 향상과 자동 음성 인식(ASR)을 순차적으로 수행하는 접근법이 활발히 연구되어 왔습니다. 그러나 본 과제에서는 훈련 조건과 테스트 조건 사이의 불일치 및 사용자의 머리 움직임 때문에 이러한 사전 훈련된 시스템이 작동하지 않습니다. 목표 발화자의 발화만을 강화하기 위해, 머리 중심 특정 방향에 해당하는 음성 성분을 적응적으로 추출할 수 있는 DNN 기반 음성 마스크 추정기를 사용한 빔포밍(beamforming)을 활용합니다. 우리는 클린 음성 신호와 참조 번역(text transcription)을 이용하고, 고신뢰도로 추정된 번역을 가진 잡음 있는 음성 신호를 사용하여 실행 시간에 마스크 추정기와 ASR 모델을 공동으로 업데이트하는 준감독 학습 방법(semi-supervised adaptation method)을 제안합니다. 최신 원격 음성 인식 시스템을 사용한 비교 실험 결과, 제안된 방법이 ASR 성능을 크게 개선함을 보여주었습니다.

방향 인식 기반 신경망 음성 향상 및 인식의 공동 적응 연구: 실제 다인 대화 환경에서의 적용 | 최신 연구 논문 | HyperAI초신경