
초록
신경망 기반 자동 음성 인식(ASR)을 위한 자유롭게 이용 가능한 시스템의 수는 지속적으로 증가하고 있으며, 예측의 신뢰성 또한 점차 높아지고 있다. 그러나 훈련된 모델의 평가 대부분은 WER 또는 CER과 같은 통계적 지표에만 기반하여, 음성 입력에서 전사 텍스트를 예측할 때 발생하는 오류의 성격이나 영향에 대한 통찰을 제공하지 못한다. 본 연구는 독일어를 기반으로 사전 훈련된 다양한 ASR 모델 아키텍처를 선정하고, 다양한 테스트 데이터셋으로 구성된 벤치마크에서 그 성능을 평가한다. 이를 통해 아키텍처 간의 예측 오류를 식별하고, 오류를 계열화하여 각 계열별 오류의 원인을 훈련 데이터 및 기타 요인으로 추적한다. 마지막으로, 품질이 뛰어난 훈련 데이터셋을 구성하고 더 강건한 ASR 시스템을 개발하기 위한 해결 방안을 논의한다.