4달 전

정책 학습을 활용한 단일 과정 음성 인식의 개선

Yingbo Zhou; Caiming Xiong; Richard Socher
정책 학습을 활용한 단일 과정 음성 인식의 개선
초록

커넥션리스트 시퀀스 분류(Connectionist Temporal Classification, CTC)는 엔드투엔드 음성 인식 모델에서 최대 우도 학습을 위해 널리 사용됩니다. 그러나 음성 인식에서 사용되는 성능 지표(예: 단어 오류율(WER))와 부정 최대 우도 사이에는 일반적으로 차이가 있습니다. 이로 인해 훈련 중 목적 함수와 지표 간에 불일치가 발생합니다. 우리는 최대 우도와 정책 그래디언트를 함께 훈련시키면 위의 문제를 완화할 수 있음을 보여줍니다. 특히, 정책 학습을 통해 (기타 미분 불가능한) 성능 지표를 직접 최적화할 수 있습니다. 우리는 공동 훈련이 최대 우도를 통해 학습된 동일한 모델과 비교하여 우리 엔드투엔드 모델의 상대적인 성능을 4%에서 13%까지 개선시킬 수 있음을 보여주었습니다. 해당 모델은 월스트리트저널 데이터셋에서 5.53%의 WER를 달성했으며, 리브리스피치 테스트-클린 세트에서는 5.42%, 테스트-오더 세트에서는 14.70%의 WER를 기록했습니다.