HyperAIHyperAI超神経
ホームニュース論文チュートリアルデータセット百科事典SOTALLMモデルGPU ランキング学会
検索
サイトについて
日本語
HyperAIHyperAI超神経
  1. ホーム
  2. SOTA
  3. オーディオビジュアル音声認識
  4. Audio Visual Speech Recognition On Lrs3 Ted

Audio Visual Speech Recognition On Lrs3 Ted

評価指標

Word Error Rate (WER)

評価結果

このベンチマークにおける各モデルのパフォーマンス結果

モデル名
Word Error Rate (WER)
Paper TitleRepository
EG-seq2seq6.8Discriminative Multi-modality Speech Recognition
DistillAV1.3Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models
TM-seq2seq7.2Deep Audio-Visual Speech Recognition
RNN-T4.5Recurrent Neural Network Transducer for Audio-Visual Speech Recognition
Hyb-Conformer2.3End-to-end Audio-visual Speech Recognition with Conformers
AV-HuBERT Large1.4Robust Self-Supervised Audio-Visual Speech Recognition
Llama-AVSR0.77Large Language Models are Strong Audio-Visual Speech Recognition Learners
CTC/Attention0.9Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels
Whisper-Flamingo0.76Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation
RAVEn Large1.4Jointly Learning Visual and Auditory Speech Representations from Raw Data
Zero-AVSR1.5Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations
MMS-LLaMA0.74MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens
0 of 12 row(s) selected.
HyperAI

学習、理解、実践、コミュニティと共に人工知能の未来を構築する

日本語

サイトについて

私たちについてデータセットヘルプ

プロダクト

ニュースチュートリアルデータセット百科事典

リンク

TVM 中国語Apache TVMOpenBayes

© HyperAI超神経

TwitterBilibili