HyperAI초신경

Automatic Speech Recognition On Lrs2

평가 지표

Test WER

평가 결과

이 벤치마크에서 각 모델의 성능 결과

		Paper Title
TM-CTC	10.1	Deep Audio-Visual Speech Recognition
TM-seq2seq	9.7	Deep Audio-Visual Speech Recognition
CTC/attention	8.2	Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture
LF-MMI TDNN	6.7	Audio-visual Recognition of Overlapped speech for the LRS2 dataset
Whisper-LLaMA	6.6	Whispering LLaMA: A Cross-Modal Generative Error Correction Framework for Speech Recognition
End2end Conformer	3.9	End-to-end Audio-visual Speech Recognition with Conformers
MoCo + wav2vec (w/o extLM)	2.7	Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition
CTC/Attention	1.5	Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels
Whisper	1.3	Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation

0 of 9 row(s) selected.