2달 전
비지도-지도 시퀀스-투-시퀀스 ASR을 이용한 언어와 음성의 비대응 자료 활용
Murali Karthick Baskar; Shinji Watanabe; Ramon Astudillo; Takaaki Hori; Lukáš Burget; Jan Černocký

초록
시퀀스-투-시퀀스 자동 음성 인식(ASR) 모델은 높은 성능을 달성하기 위해 대량의 데이터가 필요합니다. 이로 인해 최근 이러한 모델에서 비지도 및 준비지도 학습에 대한 관심이 급증하고 있습니다. 본 연구는 사이클 일관성(cycle-consistency)과 관련 기술을 사용하여 준비지도 학습에서 상당한 개선을 보인 최근 결과를 바탕으로 진행되었습니다. 이러한 기술들은 ASR와 텍스트-투-스피치(TTS) 모델을 결합하여 짝을 이루지 않은 음성 및/또는 텍스트 데이터를 활용할 수 있는 학습 절차와 손실 함수(losses)를 도출합니다. 특히, 본 연구에서는 엔드-투-엔드 미분 가능한 ASR→TTS 손실 함수와 TTS→ASR 손실 함수를 결합한 새로운 준비지도 손실 함수를 제안합니다. 이 방법은 짝을 이루지 않은 음성과 텍스트 데이터를 모두 활용하여 최근 제안된 관련 기술들보다 WER(단어 오류율, Word Error Rate) 측면에서 우수한 성능을 보입니다. 우리는 WSJ와 Librispeech 코퍼스에서 데이터 양과 음성 및 텍스트 모달리티(modalities)의 영향을 분석하는 광범위한 결과를 제공하며, 일관된 성능 향상을 확인하였습니다. 실험 재현을 위해 ESPnet에서 우리의 코드를 공개하고 있습니다.