HyperAI초신경

홈 플랫폼 문서 뉴스 연구 논문 튜토리얼 데이터셋 백과사전 SOTA LLM 모델 GPU 랭킹 컨퍼런스

한국어

HyperAI초신경

Speech Recognition On Common Voice German

평가 지표

Test WER

평가 결과

이 벤치마크에서 각 모델의 성능 결과

		Paper Title	Repository
wav2vec 2.0 XLS-R (no LM)	12.06%	TEVR: Improving Speech Recognition by Token Entropy Variance Reduction
wav2vec 2.0 XLS-R 1B + TEVR (no LM)	10.10%	TEVR: Improving Speech Recognition by Token Entropy Variance Reduction
VoxPopuli (n-gram)	7.8%	VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation
QuartzNet15x5DE (CV-only, 5-gram)	7.7%	Scribosermo: Fast Speech-to-Text models for German and other Languages
ConformerCTC-L (no LM)	7.33%	Scribosermo: Fast Speech-to-Text models for German and other Languages
ConformerCTC-L (no LM)	6.68%	NeMo: a toolkit for building AI applications using Neural Modules
QuartzNet15x5DE (D37, 5-gram)	6.6%	Scribosermo: Fast Speech-to-Text models for German and other Languages
Whisper (Large v2)	6.4%	Robust Speech Recognition via Large-Scale Weak Supervision
Conformer Transducer (no LM)	6.28%	Automatic Speech Recognition in German: A Detailed Error Analysis	-
ConformerCTC-L (4-gram)	6.03%	NeMo: a toolkit for building AI applications using Neural Modules
wav2vec 2.0 XLS-R 1B (5-gram)	4.38%	TEVR: Improving Speech Recognition by Token Entropy Variance Reduction
ConformerCTC-L (5-gram)	4.05%	Scribosermo: Fast Speech-to-Text models for German and other Languages
wav2vec 2.0 XLS-R 1B + TEVR (4-gram)	3.70%	TEVR: Improving Speech Recognition by Token Entropy Variance Reduction
wav2vec 2.0 XLS-R 1B + TEVR (5-gram)	3.64%	TEVR: Improving Speech Recognition by Token Entropy Variance Reduction

0 of 14 row(s) selected.