
초록
커넥션리스트 시퀀스 분류(Connectionist Temporal Classification, CTC)는 엔드투엔드 음성 인식 모델에서 최대 우도 학습을 위해 널리 사용됩니다. 그러나 음성 인식에서 사용되는 성능 지표(예: 단어 오류율(WER))와 부정 최대 우도 사이에는 일반적으로 차이가 있습니다. 이로 인해 훈련 중 목적 함수와 지표 간에 불일치가 발생합니다. 우리는 최대 우도와 정책 그래디언트를 함께 훈련시키면 위의 문제를 완화할 수 있음을 보여줍니다. 특히, 정책 학습을 통해 (기타 미분 불가능한) 성능 지표를 직접 최적화할 수 있습니다. 우리는 공동 훈련이 최대 우도를 통해 학습된 동일한 모델과 비교하여 우리 엔드투엔드 모델의 상대적인 성능을 4%에서 13%까지 개선시킬 수 있음을 보여주었습니다. 해당 모델은 월스트리트저널 데이터셋에서 5.53%의 WER를 달성했으며, 리브리스피치 테스트-클린 세트에서는 5.42%, 테스트-오더 세트에서는 14.70%의 WER를 기록했습니다.