
초록
최근 Conformer 기반의 CTC/AED 모델이 음성 인식(ASR) 분야의 주류 아키텍처로 부상하고 있다. 본 논문에서는 기존 연구를 바탕으로 ASR 작업에서 추가적인 성능 향상을 달성하기 위해 여러 접근법을 식별하고 통합하였으며, 이를 '다중 손실(multi-loss)', '다중 경로(multi-path)', '다중 수준(multi-level)'으로 요약하여 '3M' 모델이라 명명하였다. 구체적으로, 다중 손실은 CTC와 AED 손실을 동시에 최적화하는 방식을 의미하며, 다중 경로는 모델 용량을 크게 증가시키되 계산 비용의 급격한 증가 없이 효과적으로 작동하는 Mixture-of-Experts(MoE) 아키텍처를 의미한다. 다중 수준은 깊은 모델의 여러 계층에 보조 손실(assistant loss)을 도입하여 학습을 보조하는 전략을 의미한다. 제안된 방법은 공개된 WenetSpeech 데이터셋에서 평가되었으며, 실험 결과 기존 Wenet 툴킷으로 학습된 기준 모델 대비 상대적으로 12.2%~17.6%의 CER(CER: Character Error Rate) 개선 효과를 보였다. 또한 15만 시간 규모의 대규모 데이터셋에서도 3M 모델이 기준 Conformer 모델에 비해 뚜렷한 성능 우위를 보였다. 관련 코드는 공개되어 있으며, GitHub 링크를 통해 확인 가능하다: https://github.com/tencent-ailab/3m-asr.