17일 전
지속적 음성 분리에 대한 Conformer 적용
Sanyuan Chen, Yu Wu, Zhuo Chen, Jian Wu, Jinyu Li, Takuya Yoshioka, Chengyi Wang, Shujie Liu, Ming Zhou

초록
지속적 음성 분리 기술은 대화 전사와 같은 복잡한 음성 관련 작업에서 핵심적인 역할을 한다. 분리 모델은 혼합된 음성 신호에서 단일 발화자 신호를 추출한다. 본 논문에서는 음성 분리 시스템에 순환 신경망 대신 트랜스포머와 컨포머를 활용한다. 왜냐하면 자기 주의(Self-attention) 기반 방법을 통해 전역적인 정보를 효과적으로 포착하는 것이 음성 분리에 있어 매우 중요하다고 판단하기 때문이다. LibriCSS 데이터셋에서의 평가 결과, 컨포머 기반 분리 모델은 기존 양방향 LSTM(BLSTM) 대비 문장 단위 평가에서 23.5%의 상대적 단어 오류율(WER) 감소, 지속적 평가에서는 15.4%의 WER 감소를 기록하며 최신 기술 수준의 성능을 달성하였다.